Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Резюмирование нескольких документов - это автоматическая процедура, направленная на извлечение информации из нескольких текстов, написанных на одну и ту же тему. Итоговый итоговый отчет позволяет отдельным пользователям, например профессиональным потребителям информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, многодокументные системы реферирования дополняют агрегаторы новостей, выполняя следующий шаг по пути преодоления информационной перегрузки .

Основные преимущества и трудности [ править ]

Обобщение нескольких документов позволяет создавать краткие и исчерпывающие информационные отчеты. Поскольку разные мнения объединяются и обрисовываются в общих чертах, каждая тема описывается с разных точек зрения в одном документе. В то время как цель краткого резюме состоит в том, чтобы упростить поиск информации и сократить время, указывая на наиболее релевантные исходные документы, всеобъемлющее многодокументное резюме теоретически должно содержать требуемую информацию, тем самым ограничивая необходимость доступа к исходным файлам случаями, когда уточнение требуется. На практике сложно резюмировать несколько документов с противоречивыми взглядами и предубеждениями. Фактически, практически невозможно добиться четкого извлекающего обобщения документов с противоречивыми взглядами. Абстрактное обобщение является предпочтительным местом в этом случае.

Автоматические сводки представляют информацию, извлеченную из нескольких источников алгоритмически, без какого-либо редакционного вмешательства или субъективного вмешательства человека, что делает ее полностью беспристрастной. Трудности остаются, если делать автоматическое извлечение резюме из документов с противоречивыми взглядами.

Технологические проблемы [ править ]

Задача резюмирования нескольких документов более сложна, чем резюмирование одного документа , даже длинного. Сложность возникает из-за тематического разнообразия большого набора документов. Хорошая технология реферирования направлена ​​на объединение основных тем с полнотой, удобочитаемостью и краткостью. Конференция по пониманию документов [1], ежегодно проводимая NIST , разработала сложные критерии оценки для методов, позволяющих решить задачу обобщения нескольких документов.

Идеальная многодокументная система реферирования не только сокращает исходные тексты, но также представляет информацию, организованную по ключевым аспектам для представления различных точек зрения. Успех дает обзор данной темы. Такие текстовые компиляции должны также соответствовать основным требованиям к обзорному тексту, составленному человеком. Критерии качества краткого описания нескольких документов следующие:

  • четкая структура, включая схему основного содержания, из которой легко переходить к полнотекстовым разделам
  • текст в разделах делится на значимые абзацы
  • постепенный переход от более общих к более конкретным тематическим аспектам
  • хорошая читаемость .

Последний момент заслуживает дополнительного упоминания. Необходимо следить за тем, чтобы в автоматическом обзоре отображались:

  • отсутствие связанного с бумагой " информационного шума " от соответствующих документов (например, веб-страниц)
  • нет висящих ссылок на то, что не упоминается или не объясняется в обзоре
  • нет разрывов текста в предложении
  • нет смысловой избыточности .

Реальные системы [ править ]

Технология резюмирования нескольких документов в настоящее время достигла своего совершеннолетия - представление, поддерживаемое выбором современных веб-систем, доступных в настоящее время.

  • ReviewChomp представляет резюме отзывов клиентов о любом продукте или услуге. У некоторых продуктов есть тысячи онлайн-обзоров, что делает их нечитаемыми людьми в режиме реального времени. Поиск товара или услуги осуществляется на сайте.
  • Ultimate Research Assistant [2] - выполняет интеллектуальный анализ текста в результатах поиска в Интернете, чтобы помочь обобщить и систематизировать их, а также облегчить пользователю выполнение онлайн-поиска. Конкретные методы интеллектуального анализа текста, используемые инструментом, включают извлечение понятий, обобщение текста, иерархическую кластеризацию понятий (например, автоматическое создание таксономии) и различные методы визуализации, включая облака тегов и интеллектуальные карты.
  • iResearch Reporter [3] - коммерческая система извлечения текста и суммирования текста, бесплатный демонстрационный сайт принимает введенный пользователем запрос, передает его в поисковую систему Google, извлекает несколько релевантных документов, создает категоризированные, легко читаемые сводные отчеты на естественном языке, охватывающие несколько извлекаемых документов. набор, все экстракты, связанные с исходными документами в Интернете, постобработка, извлечение сущностей, извлечение событий и взаимосвязей, извлечение текста, кластеризация извлечений, лингвистический анализ, многодокументный, полный текст, обработка естественного языка, правила категоризации, кластеризация, лингвистические анализ, набор инструментов для построения текстовой сводки.
  • Newsblaster [4] - это система, которая помогает пользователям находить новости, которые им интересны. Система автоматически собирает, группирует, классифицирует и обобщает новости с нескольких сайтов в Интернете ( CNN , Reuters , Fox News и т. Д.) На ежедневной основе и предоставляет пользователям интерфейс для просмотра результатов.
  • NewsInEssence [5] может использоваться для извлечения и обобщения группы статей из Интернета. Он может начинаться с URL-адреса и извлекать похожие документы или извлекать документы, соответствующие заданному набору ключевых слов. NewsInEssence также ежедневно загружает новостные статьи и создает из них новостные кластеры.
  • NewsFeed Researcher [6] - новостной портал, выполняющий непрерывное автоматическое обобщение документов, изначально сгруппированных агрегаторами новостей (например, Google News ). NewsFeed Researcher поддерживается бесплатным онлайн-движком, освещающим основные события, связанные с бизнесом, технологиями, американскими и международными новостями. Этот инструмент также доступен в режиме по запросу, позволяя пользователю создавать сводки по выбранным темам.
  • Scrape This [7] похож на поисковую систему, но вместо того, чтобы предоставлять ссылки на наиболее релевантные веб-сайты на основе запроса, он удаляет соответствующую информацию с соответствующих веб-сайтов и предоставляет пользователю консолидированную сводку из нескольких документов вместе с словарные определения, изображения и видео.
  • JistWeb [8] - это составитель отчетов для нескольких документов.

Поскольку автоматически генерируемые многодокументные резюме все больше напоминают обзоры, написанные человеком, использование извлеченных текстовых фрагментов может однажды столкнуться с проблемами авторского права в связи с концепцией авторского права добросовестного использования .

Библиография [ править ]

  • Гюнес Эркан; Драгомир Р. Радев (1 декабря 2004 г.). «LexRank: лексическая центральность на основе графа как значимость в обобщении текста» . Журнал исследований искусственного интеллекта . 22 : 457–479. arXiv : 1109.2128 . DOI : 10,1613 / JAIR.1523 . ISSN  1076-9757 . Викиданные  Q81312697 .
  • Драгомир Р. Радев, Хунъян Цзин, Малгожата Стись и Даниэль Там. Резюмирование нескольких документов на основе центроидов. Обработка информации и управление, 40: 919–938, декабрь 2004 г. [5]
  • Кэтлин Р. МакКаун и Драгомир Р. Радев. Создание резюме нескольких новостных статей. In Proceedings, ACM Conference on Research and Development in Information Retrieval SIGIR'95, pages 74–82, Seattle, Washington, July 1995. [6]
  • C.-Y. Лин, Э. Хови, «От одного к многодокументному обобщению: система-прототип и ее оценка», В «Proceedings of the ACL», стр. 457–464, 2002 г.
  • Кэтлин МакКаун, Ребекка Дж. Пассонно, Дэвид К. Элсон, Ани Ненкова, Джулия Хиршберг, «Помогают ли резюме? Оценка многодокументного обобщения на основе задач», SIGIR'05, Сальвадор, Бразилия, 15–19 августа 2005 г. [7]
  • Р. Барзилай, Н. Эльхадад, К. Р. Маккеун, «Стратегии вывода для упорядочивания предложений при резюмировании многодокументных новостей», Журнал исследований искусственного интеллекта, т. 17, стр. 35–55, 2002 г.
  • М. Субботин, С. Субботин, «Компромисс между факторами, влияющими на качество резюме», Семинар по пониманию документов (DUC), Ванкувер, Британская Колумбия, Канада, 9–10 октября 2005 г. [8]
  • C Равиндранат Чоудари и П. Шриниваса Кумар. «Esum: эффективная система реферирования нескольких документов по запросу». В ECIR (достижения в области информационного поиска), стр. 724–728. Springer Berlin Heidelberg, 2009 г.

См. Также [ править ]

  • Автоматическое суммирование
  • Текстовый майнинг
  • Агрегаторы новостей

Ссылки [ править ]

  1. ^ "Документ понимания конференций" . Nlpir.nist.gov . 2014-09-09 . Проверено 10 января 2016 . CS1 maint: обескураженный параметр ( ссылка )
  2. ^ «Создать отчет об исследовании» . Лучший помощник по исследованиям . Проверено 10 января 2016 . CS1 maint: обескураженный параметр ( ссылка )
  3. ^ "Служба репортера iResearch" . Iresearch-reporter.com . Архивировано из оригинала на 2013-06-09 . Проверено 10 января 2016 . CS1 maint: обескураженный параметр ( ссылка )
  4. ^ [1] Архивировано 16 апреля 2013 года в Wayback Machine.
  5. ^ [2] Архивировано 11 апреля 2011 года в Wayback Machine.
  6. ^ "Исследователь новостной ленты | Общие сведения" . Newsfeedresearcher.com . Проверено 10 января 2016 . CS1 maint: обескураженный параметр ( ссылка )
  7. [3] Архивировано 19 сентября 2009 года в Wayback Machine.
  8. [4] Архивировано 29 мая 2013 г., в Wayback Machine.

Внешние ссылки [ править ]

  • Документ Общие сведения о конференциях
  • Columbia NLP Projects
  • NewsInEssence: веб-обобщение новостей
  • Обзор