Автоматическое обобщение - это процесс сокращения набора данных с помощью вычислений для создания подмножества ( резюме ), которое представляет наиболее важную или релевантную информацию в исходном содержании.
Помимо текста, можно также резюмировать изображения и видео. Обобщение текста позволяет находить наиболее информативные предложения в документе; [1] суммирование изображений находит наиболее репрезентативные изображения в коллекции изображений [ необходима ссылка ] ; Обобщение видео извлекает наиболее важные кадры из видеоконтента. [2]
Подходы
Существует два общих подхода к автоматическому реферированию: извлечение и абстракция .
Резюме на основе извлечения
Здесь контент извлекается из исходных данных, но извлеченный контент никоим образом не изменяется. Примеры извлеченного контента включают ключевые фразы, которые можно использовать для «пометки» или индексации текстового документа, или ключевые предложения (включая заголовки), которые вместе составляют аннотацию, а также репрезентативные изображения или видеофрагменты, как указано выше. Для текста извлечение аналогично процессу беглого просмотра, где краткое содержание (если доступно), заголовки и подзаголовки, рисунки, первый и последний абзацы раздела и, возможно, первое и последнее предложения в абзаце читаются перед выбором. чтобы подробно прочитать весь документ. [3] Другие примеры извлечения, которые включают ключевые последовательности текста с точки зрения клинической значимости (включая пациента / проблему, вмешательство и результат). [4]
Резюмирование на основе абстракций
Это применялось в основном для текста. Абстрактивные методы создают внутреннее семантическое представление исходного контента, а затем используют это представление для создания резюме, более близкого к тому, что может выразить человек. Абстракция может преобразовывать извлеченный контент, перефразируя разделы исходного документа, чтобы сжать текст сильнее, чем извлечение. Однако такое преобразование в вычислительном отношении намного сложнее, чем извлечение, поскольку включает в себя как обработку естественного языка, так и часто глубокое понимание области исходного текста в тех случаях, когда исходный документ относится к специальной области знаний. «Перефразирование» еще сложнее применить к изображениям и видео, поэтому большинство систем реферирования являются экстрактивными.
Обобщение с помощью
Подходы, направленные на повышение качества реферирования, основываются на совместных усилиях программного обеспечения и человека. В машинном обобщении человека методы извлечения выделяют отрывки-кандидаты для включения (в которые человек добавляет или удаляет текст). В суммировании с помощью машины с автоматическим управлением - результат обработки программного обеспечения, выполняемый человеком, таким же образом, как при редактировании автоматического перевода с помощью Google Translate.
Приложения и системы для реферирования
Существует два типа задач обобщающего реферирования в зависимости от того, на чем фокусируется программа реферирования. Первый - это общее обобщение , которое фокусируется на получении общего резюме или реферата коллекции (будь то документы или наборы изображений, или видео, новости и т. Д.). Второй - это суммирование по запросу , иногда называемое суммированием на основе запроса , которое суммирует объекты, специфичные для запроса. Системы реферирования могут создавать как релевантные для запроса текстовые сводки, так и общие сводки, генерируемые машиной, в зависимости от того, что нужно пользователю.
Примером проблемы реферирования является реферирование документа, которое пытается автоматически создать реферат из данного документа. Иногда один может быть заинтересован в создании резюме из одного исходного документа, в то время как другие могут использовать несколько исходных документов (например, группу статей по одной и той же теме). Эта проблема называется резюмированием нескольких документов . Связанное приложение подводит итоги новостных статей. Представьте себе систему, которая автоматически собирает новостные статьи по заданной теме (из Интернета) и кратко представляет последние новости в виде резюме.
Обобщение коллекции изображений - еще один пример применения автоматического суммирования. Он заключается в выборе репрезентативного набора изображений из большего набора изображений. [5] Резюме в этом контексте полезно для отображения наиболее репрезентативных изображений результатов в системе исследования коллекции изображений . Обобщение видео - это связанный домен, в котором система автоматически создает трейлер длинного видео. У этого также есть приложения в потребительских или личных видео, где можно пропустить скучные или повторяющиеся действия. Точно так же в видео наблюдения хотелось бы выделить важную и подозрительную активность, игнорируя при этом все скучные и повторяющиеся кадры.
На очень высоком уровне алгоритмы реферирования пытаются найти подмножества объектов (например, набор предложений или набор изображений), которые охватывают информацию всего набора. Это также называется основным набором . Эти алгоритмы моделируют такие понятия, как разнообразие, охват, информация и репрезентативность резюме. Методы реферирования на основе запросов, дополнительно моделирующие релевантность сводки запросу. Некоторые методы и алгоритмы, которые естественным образом моделируют проблемы реферирования, - это TextRank и PageRank, функция субмодульного набора , процесс детерминантной точки , максимальная маржинальная релевантность (MMR) и т. Д.
Извлечение ключевой фразы
Задача следующая. Вам дается отрывок текста, например журнальная статья, и вы должны составить список ключевых слов или ключевых [фраз], отражающих основные темы, обсуждаемые в тексте. [6] В случае исследовательских статей многие авторы предоставляют вручную назначенные ключевые слова, но в большинстве текстов отсутствуют ранее существовавшие ключевые фразы. Например, к новостным статьям редко добавляются ключевые фразы, но было бы полезно иметь возможность делать это автоматически для ряда приложений, обсуждаемых ниже. Рассмотрим пример текста из новостной статьи:
- «Инженерный корпус армии, спешащий выполнить обещание президента Буша защитить Новый Орлеан к началу сезона ураганов 2006 года, в прошлом году установил неисправные насосы для защиты от наводнений, несмотря на предупреждения собственного эксперта о том, что оборудование выйдет из строя во время шторма, согласно к документам, полученным Associated Press ».
Средство извлечения ключевых фраз может выбрать в качестве ключевых фраз «Инженерный корпус армии», «Президент Буш», «Новый Орлеан» и «Неисправные насосы для борьбы с наводнениями». Они берутся прямо из текста. Напротив, абстрактная система ключевых фраз каким-то образом усваивает контент и генерирует ключевые фразы, которые не появляются в тексте, но более напоминают то, что может произвести человек, например, «политическая халатность» или «недостаточная защита от наводнений». Абстракция требует глубокого понимания текста , что затрудняет работу компьютерной системы. Ключевые фразы имеют множество применений. Они могут включать просмотр документов, предоставляя краткую сводку, улучшать поиск информации (если для документов назначены ключевые фразы, пользователь может выполнять поиск по ключевой фразе для получения более надежных результатов, чем полнотекстовый поиск ) и использоваться для создания записей указателя для больших текстовый корпус.
В зависимости от различной литературы и определения ключевых терминов, слов или фраз, извлечение ключевых слов является очень связанной темой.
Подходы к обучению с учителем
Начиная с работы Терни [7], многие исследователи подошли к извлечению ключевой фразы как к проблеме контролируемого машинного обучения . Получив документ, мы строим пример для каждого Юниграмма , биграмма и триграммы найденной в тексте (хотя другие текстовые блоки также возможны, как описано ниже). Затем мы вычисляем различные характеристики, описывающие каждый пример (например, начинается ли фраза с заглавной буквы?). Мы предполагаем, что для набора учебных документов доступны известные ключевые фразы. Используя известные ключевые фразы, мы можем присвоить примерам положительные или отрицательные ярлыки. Затем мы изучаем классификатор, который может различать положительные и отрицательные примеры в зависимости от характеристик. Некоторые классификаторы делают бинарную классификацию для тестового примера, в то время как другие присваивают вероятность того, что это ключевое слово. Например, в приведенном выше тексте мы могли бы изучить правило, согласно которому фразы с начальными заглавными буквами, скорее всего, будут ключевыми. После обучения учащегося мы можем выбирать ключевые фразы для тестовых документов следующим образом. Мы применяем ту же стратегию создания примеров к тестовым документам, а затем прогоняем каждый пример через учащегося. Мы можем определить ключевые фразы, посмотрев на решения или вероятности бинарной классификации, полученные из нашей изученной модели. Если указаны вероятности, для выбора ключевых фраз используется порог. Экстракторы ключевых фраз обычно оцениваются по точности и полноте. Точность определяет, сколько из предложенных ключевых фраз действительно верны. Напоминание измеряет, сколько истинных ключевых фраз предложила ваша система. Эти два показателя можно объединить в F-балл, который представляет собой гармоническое среднее из двух ( F = 2 PR / ( P + R )). Соответствие между предложенными ключевыми фразами и известными ключевыми фразами можно проверить после выделения корня или применения какой-либо другой нормализации текста.
Разработка контролируемой системы извлечения ключевых фраз включает выбор нескольких вариантов (некоторые из них применимы и к неконтролируемым). Первый выбор - это именно то, как создавать примеры. Терни и другие использовали все возможные униграммы, биграммы и триграммы без использования знаков препинания и после удаления стоп-слов. Халт показал, что можно добиться некоторого улучшения, выбрав в качестве примеров последовательности токенов, которые соответствуют определенным шаблонам тегов части речи. В идеале механизм генерации примеров производит все известные помеченные ключевые фразы в качестве кандидатов, хотя часто это не так. Например, если мы будем использовать только униграммы, биграммы и триграммы, мы никогда не сможем извлечь известную ключевую фразу, содержащую четыре слова. Таким образом, может пострадать отзыв. Однако создание слишком большого количества примеров также может привести к низкой точности.
Нам также необходимо создать функции, которые описывают примеры и достаточно информативны, чтобы позволить алгоритму обучения отличать ключевые фразы от неключевых. Обычно функции включают в себя различную частоту терминов (сколько раз фраза встречается в текущем тексте или в более крупном корпусе), длину примера, относительное положение первого вхождения, различные логические синтаксические функции (например, содержит все заглавные буквы) и т. Д. В статье Терни использовано около 12 таких функций. Hulth использует сокращенный набор функций, которые были признаны наиболее успешными в работе KEA (Keyphrase Extraction Algorithm), взятой из основополагающей статьи Терни.
В конце концов, система должна будет вернуть список ключевых фраз для тестового документа, поэтому нам нужен способ ограничить количество. Методы ансамбля (т. Е. Использование голосов от нескольких классификаторов) использовались для получения числовых оценок, которые могут быть определены пороговыми значениями, чтобы обеспечить заданное пользователем количество ключевых фраз. Это метод, используемый Терни с деревьями решений C4.5. Халт использовал единственный двоичный классификатор, поэтому алгоритм обучения неявно определяет соответствующее число.
После создания примеров и функций нам нужен способ научиться предсказывать ключевые фразы. Можно использовать практически любой алгоритм контролируемого обучения, такой как деревья решений, наивный байесовский алгоритм и индукция правил. В случае алгоритма GenEx Терни генетический алгоритм используется для изучения параметров для специфичного для домена алгоритма извлечения ключевой фразы. Средство извлечения следует серии эвристик для определения ключевых фраз. Генетический алгоритм оптимизирует параметры этой эвристики в отношении производительности обучающих документов с известными ключевыми фразами.
Неконтролируемый подход: TextRank
Другой алгоритм извлечения ключевой фразы - TextRank. Хотя контролируемые методы обладают некоторыми хорошими свойствами, такими как способность создавать интерпретируемые правила для того, какие функции характеризуют ключевую фразу, они также требуют большого количества обучающих данных . Требуется много документов с известными ключевыми фразами. Кроме того, обучение в определенной области имеет тенденцию настраивать процесс извлечения для этой области, поэтому результирующий классификатор не обязательно является переносимым, как показывают некоторые результаты Терни. Неконтролируемое извлечение ключевой фразы устраняет необходимость в обучающих данных. Он подходит к проблеме под другим углом. Вместо того, чтобы пытаться изучить явные особенности, характеризующие ключевые фразы, алгоритм TextRank [8] использует структуру самого текста для определения ключевых фраз, которые кажутся «центральными» в тексте так же, как PageRank выбирает важные веб-страницы. Напомним, это основано на понятии «престиж» или «рекомендация» из социальных сетей . Таким образом, TextRank вообще не полагается на какие-либо предыдущие обучающие данные, а может запускаться с любым произвольным фрагментом текста и может производить вывод просто на основе внутренних свойств текста. Таким образом, алгоритм легко переносится на новые области и языки.
TextRank - это основанный на графах алгоритм ранжирования общего назначения для НЛП . По сути, он запускает PageRank на графике, специально разработанном для конкретной задачи НЛП. Для извлечения ключевой фразы он строит граф, используя некоторый набор текстовых единиц в качестве вершин. Края основаны на некоторой мере семантического или лексического сходства между вершинами текстовых единиц. В отличие от PageRank, края обычно неориентированы и могут быть взвешены, чтобы отразить степень сходства. После построения графа он используется для формирования стохастической матрицы в сочетании с коэффициентом затухания (как в «модели случайного серфера»), а ранжирование по вершинам получается путем нахождения собственного вектора, соответствующего собственному значению 1 (т. Е. стационарное распределение от случайного блуждания на графике).
Вершины должны соответствовать тому, что мы хотим ранжировать. Потенциально, мы могли бы сделать что-то похожее на контролируемые методы и создать вершину для каждой униграммы, биграммы, триграммы и т. Д. Однако, чтобы граф оставался маленьким, авторы решили ранжировать отдельные униграммы на первом этапе, а затем включить вторую шаг, который объединяет соседние униграммы с высоким рейтингом в фразы из нескольких слов. У этого есть хороший побочный эффект, позволяющий нам создавать ключевые фразы произвольной длины. Например, если мы ранжируем униграммы и обнаруживаем, что «продвинутый», «естественный», «язык» и «обработка» получают высокие оценки, то мы бы посмотрели на исходный текст и увидели, что эти слова появляются последовательно, и создадим окончательный ключевую фразу, используя все четыре вместе. Обратите внимание, что размещенные на графике униграммы можно фильтровать по части речи. Авторы обнаружили, что лучше всего использовать прилагательные и существительные. Таким образом, на этом этапе в игру вступают некоторые лингвистические знания.
Края создаются на основе совпадения слов в этом приложении TextRank. Две вершины соединяются ребром, если униграммы появляются в окне размера N в исходном тексте. N обычно составляет около 2–10. Таким образом, «естественный» и «язык» могут быть связаны в тексте о НЛП. «Естественный» и «обработка» также будут связаны, потому что оба они появятся в одной строке из N слов. Эти грани основаны на понятии « связность текста » и на идее, что слова, которые появляются рядом друг с другом, вероятно, связаны значимым образом и «рекомендуют» друг друга читателю.
Поскольку этот метод просто ранжирует отдельные вершины, нам нужен способ порогового значения или создания ограниченного числа ключевых фраз. Выбранный метод состоит в том, чтобы установить счетчик T как указанную пользователем долю от общего числа вершин в графе. Затем выбираются верхние T вершин / униграмм на основе их стационарных вероятностей. Затем применяется этап постобработки для слияния соседних экземпляров этих Т-униграмм. В результате потенциально может быть создано более или менее T конечных ключевых фраз, но их количество должно быть примерно пропорционально длине исходного текста.
Изначально непонятно, почему применение PageRank к графу совместной встречаемости дает полезные ключевые фразы. Один из способов подумать об этом заключается в следующем. Слово, которое встречается несколько раз в тексте, может иметь много разных соседей. Например, в тексте о машинном обучении униграмма «обучение» может сочетаться с «машинным», «контролируемым», «неконтролируемым» и «частично контролируемым» в четырех разных предложениях. Таким образом, «обучающая» вершина будет центральным «хабом», который соединяется с этими другими модифицирующими словами. Использование PageRank / TextRank на графике может дать высокий рейтинг «обучения». Точно так же, если текст содержит фразу «контролируемая классификация», тогда будет разница между «контролируемой» и «классификацией». Если «классификация» появляется в нескольких других местах и, таким образом, имеет много соседей, ее важность будет повышать важность «контролируемой». Если он получит высокий ранг, он будет выбран как одна из лучших униграммов T вместе с «обучением» и, вероятно, «классификацией». На последнем этапе постобработки мы должны были использовать ключевые фразы «контролируемое обучение» и «контролируемая классификация».
Короче говоря, граф совместной встречаемости будет содержать плотно связанные области для терминов, которые встречаются часто и в разных контекстах. Случайное блуждание на этом графе будет иметь стационарное распределение, которое приписывает большие вероятности членам в центрах кластеров. Это похоже на то, как сильно связанные веб-страницы получают высокие рейтинги по PageRank. Этот подход также использовался при обобщении документов, рассматриваемом ниже.
Резюме документа
Подобно извлечению ключевой фразы, реферирование документа направлено на выявление сути текста. Единственная реальная разница в том, что теперь мы имеем дело с более крупными текстовыми единицами - целыми предложениями, а не словами и фразами.
Прежде чем углубляться в детали некоторых методов реферирования, мы упомянем, как обычно оцениваются системы реферирования. Чаще всего используется так называемая мера ROUGE (ориентированное на отзыв дублера для оценки стоимости). Это основанная на отзыве мера, которая определяет, насколько хорошо сгенерированная системой сводка охватывает контент, представленный в одной или нескольких созданных человеком сводках модели, известных как ссылки. Он основан на отзыве, чтобы побудить системы включать в текст все важные темы. Напоминание может быть вычислено относительно соответствия униграмме, биграмме, триграмме или 4-грамму. Например, ROUGE-1 вычисляется как деление количества униграммов в справочнике, которые появляются в системе, и количества униграмм в сводке справочников.
Если имеется несколько ссылок, баллы ROUGE-1 усредняются. Поскольку ROUGE основан только на перекрытии контента, он может определить, обсуждаются ли одни и те же общие концепции между автоматическим резюме и справочным резюме, но он не может определить, является ли результат последовательным или предложения объединяются разумным образом. Меры ROUGE высокого порядка в n-граммах пытаются в некоторой степени судить о беглости речи. Обратите внимание, что ROUGE похож на показатель BLEU для машинного перевода, но BLEU основан на точности, поскольку системы перевода предпочитают точность.
Многообещающим направлением реферирования документа является адаптивное реферирование документа / текста. [9] Идея адаптивного реферирования включает предварительное распознавание жанра документа / текста и последующее применение алгоритмов реферирования, оптимизированных для этого жанра. Сначала резюмирует, что выполнить адаптивное суммирование были созданы. [10]
Подходы к обучению с учителем
Контролируемое резюмирование текста очень похоже на контролируемое извлечение ключевых фраз. По сути, если у вас есть коллекция документов и резюме для них, созданное человеком, вы можете изучить особенности предложений, которые сделают их хорошими кандидатами для включения в резюме. Возможности могут включать положение в документе (т. Е. Первые несколько предложений, вероятно, важны), количество слов в предложении и т. Д. Основная трудность контролируемого извлекающего реферирования состоит в том, что известные рефераты должны создаваться вручную путем извлечения предложений, так что предложения в исходном учебном документе могут быть помечены как «в обобщенном виде» или «не в обобщенном виде». Обычно люди не создают резюме, поэтому простого использования рефератов из журналов или существующих обзоров обычно недостаточно. Предложения в этих резюме не обязательно совпадают с предложениями в исходном тексте, поэтому было бы сложно присвоить метки примерам для обучения. Однако обратите внимание, что эти естественные сводки все еще могут использоваться для целей оценки, поскольку ROUGE-1 заботится только об униграммах.
Максимальное суммирование на основе энтропии
Во время семинаров по оценке DUC 2001 и 2002 TNO разработала систему извлечения предложений для резюмирования нескольких документов в новостной сфере. Система была основана на гибридной системе, использующей простой байесовский классификатор и статистические языковые модели для моделирования значимости. Хотя система показала хорошие результаты, исследователи хотели изучить эффективность классификатора максимальной энтропии (ME) для задачи обобщения встреч, поскольку ME, как известно, устойчив к зависимостям функций. Максимальная энтропия также успешно применялась для реферирования в области широковещательных новостей.
TextRank и LexRank
Неконтролируемый подход к реферированию также очень похож по духу на неконтролируемое извлечение ключевых фраз и позволяет обойти проблему дорогостоящих обучающих данных. Некоторые подходы к неконтролируемому реферированию основаны на поиске « центроидного » предложения, которое является вектором среднего слова для всех предложений в документе. Затем предложения можно ранжировать по их сходству с этим предложением центроида.
Более принципиальный способ оценить важность предложения - использовать случайные блуждания и центральность собственного вектора. LexRank [11] - это алгоритм, по сути идентичный TextRank, и оба используют этот подход для резюмирования документов. Эти два метода были разработаны разными группами одновременно, и LexRank просто сосредоточился на обобщении, но с таким же успехом мог использоваться для извлечения ключевых фраз или любой другой задачи ранжирования НЛП.
И в LexRank, и в TextRank граф строится путем создания вершины для каждого предложения в документе.
Границы между предложениями основаны на некоторой форме семантического сходства или перекрытия содержания. В то время как LexRank использует косинус сходство с TF-IDF векторов, TextRank использует очень аналогичную меру , основанную на количестве слов два предложений имеют в общем ( нормированном по длине Сентенций). В статье LexRank исследовалось использование невзвешенных краев после применения порога к значениям косинуса, но также проводились эксперименты с использованием краев с весами, равными оценке сходства. TextRank использует непрерывные оценки сходства в качестве весов.
В обоих алгоритмах предложения ранжируются путем применения PageRank к результирующему графику. Резюме формируется путем комбинирования предложений с самым высоким рейтингом с использованием порогового значения или отрезка длины, чтобы ограничить размер резюме.
Стоит отметить, что TextRank применялся для реферирования точно так, как описано здесь, в то время как LexRank использовался как часть более крупной системы реферирования ( MEAD ), которая объединяет оценку LexRank (стационарная вероятность) с другими функциями, такими как положение и длина предложения, используя линейную комбинацию с указанными пользователем или автоматически настраиваемыми весами. В этом случае могут потребоваться некоторые обучающие документы, хотя результаты TextRank показывают, что дополнительные функции не являются абсолютно необходимыми.
Еще одно важное отличие состоит в том, что TextRank использовался для резюмирования одного документа, а LexRank применялся для реферирования нескольких документов. В обоих случаях задача осталась прежней - только количество предложений на выбор выросло. Однако при резюмировании нескольких документов существует больший риск выбора повторяющихся или сильно повторяющихся предложений для помещения в одно и то же резюме. Представьте, что у вас есть группа новостных статей по определенному событию, и вы хотите составить одно резюме. В каждой статье, вероятно, будет много похожих предложений, и вы захотите включить в резюме только отдельные идеи. Чтобы решить эту проблему, LexRank применяет эвристический шаг постобработки, который создает сводку путем добавления предложений в порядке ранжирования, но отбрасывает любые предложения, которые слишком похожи на те, которые уже помещены в сводку. Используемый метод называется подачей информации между предложениями (CSIS).
Эти методы работают на основе идеи, что предложения «рекомендуют» читателю другие похожие предложения. Таким образом, если одно предложение очень похоже на многие другие, скорее всего, это будет очень важное предложение. Важность этого предложения также проистекает из важности предложений, которые «рекомендуют» его. Таким образом, чтобы получить высокий рейтинг и место в резюме, предложение должно быть похоже на многие предложения, которые, в свою очередь, также похожи на многие другие предложения. Это имеет интуитивно понятный смысл и позволяет применять алгоритмы к любому произвольному новому тексту. Эти методы не зависят от предметной области и легко переносятся. Можно себе представить, что признаки, указывающие на важные предложения в новостной сфере, могут значительно отличаться от биомедицинской. Однако неконтролируемый подход, основанный на рекомендациях, применим к любому домену.
Резюме из нескольких документов
Резюмирование нескольких документов - это автоматическая процедура, направленная на извлечение информации из нескольких текстов, написанных на одну и ту же тему. Итоговый итоговый отчет позволяет отдельным пользователям, например профессиональным потребителям информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, многодокументные системы реферирования дополняют агрегаторы новостей, выполняя следующий шаг по пути преодоления информационной перегрузки . Резюмирование нескольких документов также может быть выполнено в ответ на вопрос. [12] [4]
Обобщение нескольких документов позволяет создавать краткие и исчерпывающие информационные отчеты. В одном документе собраны и изложены разные мнения, каждая тема описана с разных точек зрения. В то время как цель краткого резюме состоит в том, чтобы упростить поиск информации и сократить время, указывая на наиболее релевантные исходные документы, исчерпывающее многодокументное резюме должно само содержать требуемую информацию, тем самым ограничивая необходимость доступа к исходным файлам случаями, когда требуется уточнение. обязательный. Автоматические сводки представляют информацию, извлеченную из нескольких источников алгоритмически, без какого-либо редакционного вмешательства или субъективного вмешательства человека, что делает ее полностью беспристрастной. [ сомнительно ]
Включение разнообразия
Экстрактивное реферирование нескольких документов сталкивается с проблемой потенциальной избыточности. В идеале мы хотели бы выделить предложения, которые одновременно являются «центральными» (т. Е. Содержат основные идеи) и «разнообразными» (т. Е. Отличаются друг от друга). LexRank рассматривает разнообразие как эвристический заключительный этап с помощью CSIS, и другие системы использовали аналогичные методы, такие как максимальная предельная релевантность (MMR), [13], пытаясь устранить избыточность в результатах поиска информации. Существует алгоритм ранжирования на основе графов общего назначения, такой как Page / Lex / TextRank, который обрабатывает как «центральность», так и «разнообразие» в единой математической структуре, основанной на поглощении случайных блужданий цепи Маркова . (Затягивающее случайное блуждание похоже на стандартное случайное блуждание, за исключением того, что некоторые состояния теперь являются поглощающими состояниями, которые действуют как «черные дыры», вызывающие внезапное завершение прогулки в этом состоянии.) Алгоритм называется GRASSHOPPER. [14] В дополнение к явному продвижению разнообразия в процессе ранжирования, GRASSHOPPER включает предварительное ранжирование (основанное на позиции предложения в случае резюмирования).
Однако самые современные результаты для обобщения нескольких документов достигаются с использованием сочетания субмодульных функций. Эти методы позволили достичь самых современных результатов для корпусов суммирования документов, DUC 04 - 07. [15] Аналогичные результаты были также достигнуты с использованием детерминантных точечных процессов (которые являются частным случаем субмодульных функций) для DUC-04. [16]
Недавно был разработан новый метод многоязычного резюмирования нескольких документов, который позволяет избежать дублирования, упрощая и генерируя идеограммы, которые представляют значение каждого предложения в каждом документе, а затем оценивают сходство «качественно» путем сравнения формы и положения указанных идеограмм. . Этот инструмент не использует частоту слов, не требует обучения или предварительной обработки любого рода и работает, генерируя идеограммы, которые представляют значение каждого предложения, а затем суммирует с использованием двух параметров, задаваемых пользователем: эквивалентность (когда два предложения считаются эквивалентными) и актуальность (как долго длится желаемое резюме).
Субмодульные функции как общие инструменты для обобщения
Идея субмодульной функции множества недавно появилась как мощный инструмент моделирования для различных задач реферирования. Субмодульные функции естественным образом моделируют понятия охвата , информации , представления и разнообразия . Более того, несколько важных задач комбинаторной оптимизации возникают как частные случаи субмодульной оптимизации. Например, задача покрытия множества является частным случаем субмодульной оптимизации, поскольку функция покрытия множества субмодульна. Функция set cover пытается найти подмножество объектов, охватывающих данный набор концепций. Например, при резюмировании документа хотелось бы, чтобы оно охватывало все важные и актуальные концепции документа. Это экземпляр установленной обложки. Точно так же проблема размещения оборудования - это частный случай субмодульных функций. Функция определения местоположения объекта также естественным образом моделирует охват и разнообразие. Другой пример проблемы субмодульной оптимизации - использование детерминантного точечного процесса для моделирования разнообразия. Точно так же процедуру максимальной маржинальной релевантности можно рассматривать как пример субмодульной оптимизации. Все эти важные модели, поощряющие охват, разнообразие и информацию, субмодульны. Более того, субмодульные функции можно эффективно комбинировать вместе, и результирующая функция остается субмодульной. Следовательно, можно объединить одну субмодулярную функцию, которая моделирует разнообразие, другую, которая моделирует охват, и использовать человеческий контроль, чтобы изучить правильную модель субмодульной функции для проблемы.
Хотя субмодульные функции являются подходящими проблемами для резюмирования, они также допускают очень эффективные алгоритмы оптимизации. Например, простой жадный алгоритм допускает гарантию постоянного коэффициента. [17] Более того, жадный алгоритм чрезвычайно прост в реализации и может масштабироваться до больших наборов данных, что очень важно для задач реферирования.
Субмодульные функции достигли современного уровня почти для всех задач реферирования. Например, работа Lin and Bilmes, 2012 [18] показывает, что субмодульные функции достигают лучших результатов на сегодняшний день в системах реферирования документов DUC-04, DUC-05, DUC-06 и DUC-07. Точно так же работа Lin and Bilmes, 2011, [19] показывает, что многие существующие системы автоматического реферирования являются экземплярами субмодульных функций. Это был прорыв, позволивший установить субмодульные функции в качестве правильных моделей для задач реферирования. [ необходима цитата ]
Субмодульные функции также использовались для других задач реферирования. Tschiatschek et al., 2014 показывают [20], что сочетание субмодульных функций позволяет достичь самых современных результатов для суммирования коллекции изображений. Точно так же Bairi et al., 2015 [21] показывают полезность субмодульных функций для обобщения многодокументных иерархий тем. Субмодульные функции также успешно использовались для обобщения наборов данных машинного обучения. [22]
Приложения
К конкретным приложениям автоматического резюмирования относятся:
- Reddit бот «autotldr», [23] создана в 2011 году обобщаются новостных статей в комментариях сечения Reddit сообщений. Сообщество Reddit сочло его очень полезным и проголосовало за его резюме сотни тысяч раз. [24] Название ссылается на TL; DR - интернет-сленг, означающий «слишком долго; не читал». [25] [26]
Методы оценки
Самый распространенный способ оценить информативность автоматических сводок - сравнить их с сводками, созданными руками человека.
Методы оценки делятся на внутренние и внешние [27], межтекстовые и внутритекстовые. [28]
Внутренняя и внешняя оценка
Внутренняя оценка проверяет систему реферирования сама по себе, в то время как внешняя оценка проверяет резюмирование на основе того, как оно влияет на выполнение некоторой другой задачи. Внутренние оценки в основном оценивали последовательность и информативность резюме. С другой стороны, внешние оценки проверяли влияние резюмирования на такие задачи, как оценка релевантности, понимание прочитанного и т. Д.
Межтекстовый и внутритекстовый
Внутритекстовые методы оценивают результат конкретной системы реферирования, а межтекстовые методы фокусируются на контрастном анализе результатов нескольких систем реферирования.
Человеческое суждение часто сильно отличается от того, что считается «хорошим» резюме, а это означает, что автоматизация процесса оценки особенно трудна. Можно использовать ручную оценку, но это требует времени и трудозатрат, поскольку требует, чтобы люди читали не только сводки, но и исходные документы. Другие вопросы касаются согласованности и охвата.
Одной из метрик, используемых на ежегодных конференциях NIST по пониманию документов, на которых исследовательские группы представляют свои системы как для реферирования, так и для задач перевода, является метрика ROUGE (ориентированное на вспоминание Understudy for Gisting Evaluation [2] ). По сути, он вычисляет n-граммовые перекрытия между автоматически созданными резюме и ранее написанными человеческими резюме. Высокий уровень совпадения должен указывать на высокий уровень общих концепций между двумя резюме. Обратите внимание, что такие метрики перекрытия не могут дать никаких отзывов о согласованности резюме. Разрешение анафоры остается еще одной проблемой, которую еще предстоит решить. Аналогичным образом, для суммирования изображений Чиатчек и др. Разработали показатель Visual-ROUGE, который оценивает производительность алгоритмов суммирования изображений. [29]
Методы реферирования предметно-зависимых и предметно-независимых
Методы реферирования, не зависящие от предметной области, обычно применяют наборы общих функций, которые можно использовать для идентификации текстовых сегментов, насыщенных информацией. Недавние исследования сместились в сторону техник реферирования, специфичных для предметной области, которые используют имеющиеся знания, специфичные для предметной области текста. Например, исследование с автоматическим обобщением медицинских текстов обычно пытается использовать различные источники кодифицированных медицинских знаний и онтологий. [30]
Качественная оценка резюме
Основным недостатком существующих систем оценки является то, что нам требуется по крайней мере одно справочное резюме, а для некоторых методов более одного, чтобы иметь возможность сравнивать автоматические сводки с моделями. Это сложная и дорогая задача. Чтобы иметь корпус текстов и соответствующие им резюме, необходимо приложить немало усилий. Кроме того, для некоторых методов нам нужно не только иметь сводки, созданные человеком, доступные для сравнения, но также необходимо выполнить ручное аннотирование в некоторых из них (например, SCU в методе пирамиды). В любом случае, методы оценки нуждаются в исходных данных, так это набор сводок, служащих золотыми стандартами, и набор автоматических сводок. Более того, все они выполняют количественную оценку в отношении различных показателей сходства.
История
Первая публикация в этой области датируется 1958 годом (Лун), начиная со статистической техники. В 2015 году объем исследований значительно увеличился. К 2016 году использовались термины, обратная частота встречаемости документов. Резюмирование на основе шаблонов было самым мощным вариантом реферирования нескольких документов, обнаруженным к 2016 году. В следующем году его превзошел латентно-семантический анализ (LSA). в сочетании с неотрицательной матричной факторизацией (NMF). Хотя они не заменили другие подходы и часто сочетаются с ними, к 2019 году методы машинного обучения доминировали в экстрактивном обобщении отдельных документов, которое, как считалось, приближалось к зрелости. К 2020 году эта область все еще была очень активной, и исследования смещаются в сторону абстрактного суммирования и суммирования в реальном времени. [31]
Смотрите также
- Извлечение приговора
- Текстовый майнинг
- Резюме из нескольких документов
Рекомендации
- ↑ Торрес-Морено, Хуан-Мануэль (1 октября 2014 г.). Автоматическое суммирование текста . Вайли. С. 320–. ISBN 978-1-848-21668-6.
- ^ Санкар К. Пал; Альфредо Петрозино; Люсия Маддалена (25 января 2012 г.). Справочник по программным вычислениям для видеонаблюдения . CRC Press. С. 81–. ISBN 978-1-4398-5685-7.
- ^ Ричард Суц, Питер Веверка. Как бегло просмотреть текст. https://www.dummies.com/education/language-arts/speed-reading/how-to-skim-text/ По состоянию на декабрь 2019 г.
- ^ a b Afzal M, Alam F, Malik KM, Malik GM, Clinical Context-Aware Biomedical Text Summarization using Deep Neural Network: Model Development and Validation , J Med Internet Res 2020; 22 (10): e19810, DOI: 10.2196 / 19810 , PMID: 33095174
- ^ Хорхе Э. Камарго и Фабио А. Гонсалес. Метод выравнивания нескольких классов ядра для обобщения коллекции изображений. В материалах 14-й Ибероамериканской конференции по распознаванию образов: прогресс в распознавании образов, анализе изображений, компьютерном зрении и приложениях (CIARP '09), Эдуардо Байро-Коррочано и Ян-Олоф Эклунд (ред.). Springer-Verlag, Берлин, Гейдельберг, 545-552. DOI : 10.1007 / 978-3-642-10268-4_64
- ^ Alrehamy, Hassan H; Уокер, Корал (2018). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Достижения в системах вычислительного интеллекта . Достижения в интеллектуальных системах и вычислениях. 650 . С. 222–235. DOI : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
- ^ Терни, Питер Д. (2002). «Алгоритмы обучения для извлечения ключевых фраз». Информационный поиск,) . 2 (4): 303–336. arXiv : cs / 0212020 . Bibcode : 2002cs ....... 12020T . DOI : 10,1023 / A: 1009976227802 . S2CID 7007323 .
- ^ Рада Михалча и Пол Тарау, 2004: TextRank : наведение порядка в текстах , Департамент компьютерных наук Университета Северного Техаса «Архивная копия» (PDF) . Архивировано из оригинального (PDF) 17 июня 2012 года . Проверено 20 июля 2012 .CS1 maint: заархивированная копия как заголовок ( ссылка )
- ^ Яцко В.А.; Стариков М.С. Бутаков А.В. (2010). «Автоматическое распознавание жанров и адаптивное реферирование текста». Автоматическая документация и математическая лингвистика . 44 (3): 111–120. DOI : 10.3103 / S0005105510030027 . S2CID 1586931 .
- ^ UNIS (универсальный сумматор)
- ^ Гюнеш Эркан и Драгомир Р. Радев: LexRank: Графическая лексическая центральность как значимость в обобщении текста [1]
- ^ " Универсальные системы ответов на вопросы: видение в синтезе ", Международный журнал интеллектуальных информационных систем баз данных, 5 (2), 119-142, 2011.
- ^ Карбонелл, Хайме и Джейд Гольдштейн. « Использование MMR, повторного ранжирования на основе разнообразия для переупорядочивания документов и составления резюме ». Материалы 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. ACM, 1998.
- ^ Чжу, Сяоцзинь и др. « Повышение разнообразия в рейтинге с помощью увлекательных случайных блужданий ». HLT-NAACL. 2007 г.
- ^ Хуэй Лин, Джефф Билмес. « Изучение смесей субмодульных оболочек с приложением к реферированию документов.
- ^ Алекс Кулеша и Бен Таскар, Детерминантные точечные процессы для машинного обучения . Основы и тенденции машинного обучения, декабрь 2012 г.
- ^ Немхаузер, Джордж Л., Лоуренс А. Уолси и Маршалл Л. Фишер. «Анализ приближений для максимизации функций субмодульного множества - I». Математическое программирование 14.1 (1978): 265-294.
- ^ Хуэй Лин, Джефф Билмес. « Обучающие смеси субмодульных оболочек с приложением к реферированию документов », UAI, 2012
- ^ Хуэй Лин, Джефф Билмес. « Класс субмодульных функций для обобщения документов », 49-е ежегодное собрание Ассоциации компьютерной лингвистики: технологии человеческого языка (ACL-HLT), 2011 г.
- ^ Себастьян Чиатчек, Ришаб Айер, Хоахен Вей и Джефф Билмес, Обучающие смеси субмодульных функций для суммирования коллекции изображений , В достижениях систем обработки нейронной информации (NIPS), Монреаль, Канада, декабрь 2014 г.
- ^ Рамакришна Байри, Ришаб Айер, Ганеш Рамакришнан и Джефф Билмес, Обобщение многодокументных иерархий тем с использованием субмодульных смесей , которые появятся на ежегодном собрании Ассоциации компьютерной лингвистики (ACL), Пекин, Китай, июль 2015 г.
- ^ Кай Вей, Ришаб Айер и Джефф Билмес, Субмодульность в выборе подмножества данных и активном обучении , появится в Proc. Международная конференция по машинному обучению (ICML), Лилль, Франция, июнь 2015 г.
- ^ "Обзор для autotldr" . Reddit . Проверено 9 февраля +2017 .
- ^ Сквайр, Меган (2016-08-29). Освоение интеллектуального анализа данных с помощью Python - Найдите закономерности, скрытые в ваших данных . Packt Publishing Ltd. ISBN 9781785885914. Проверено 9 февраля +2017 .
- ^ "Что такое TLDR?" . Lifewire . Проверено 9 февраля +2017 .
- ^ «Что означает TL; DR? AMA? TIL? Глоссарий терминов и сокращений Reddit» . International Business Times . 29 марта 2012 . Проверено 9 февраля +2017 .
- ^ Мани, I. Обобщение оценки: обзор
- ^ Яцко В.А.; Вишняков, Т.Н. (2007). «Методика оценки современных систем автоматического реферирования текстов». Автоматическая документация и математическая лингвистика . 41 (3): 93–103. DOI : 10.3103 / S0005105507030041 . S2CID 7853204 .
- ^ Себастьян Чиатчек, Ришаб Айер, Хоахен Вей и Джефф Билмес, Обучающие смеси субмодульных функций для обобщения коллекции изображений , В усовершенствовании систем обработки нейронной информации (NIPS), Монреаль, Канада, декабрь - 2014 г. (PDF)
- ^ Саркер, Абид; Молла, Диего; Париж, Сесиль (2013). Подход к обобщению текста, ориентированного на запросы, для доказательной медицины . Конспект лекций по информатике. 7885 . С. 295–304. DOI : 10.1007 / 978-3-642-38326-7_41 . ISBN 978-3-642-38325-0.
- ^ Видьяссари, Адхика Прамита; Рустад, Суприади; Шидик, Гуру Фаджар; Noersasongko, Edi; Сюкур, Абдул; Affandy, Affandy; Сетиади, Де Росаль Игнатий Моисей (2020-05-20). «Обзор приемов и методов автоматического реферирования текста» . Журнал Университета Короля Сауда - Компьютерные и информационные науки . DOI : 10.1016 / j.jksuci.2020.05.006 . ISSN 1319-1578 .
дальнейшее чтение
- Геркулес, Далианис (2003). Перенос и оценка автоматического реферирования .
- Роксана, Ангелута (2002). Использование тематической сегментации для автоматического резюмирования .
- Энн, Буист (2004). Автоматическое обобщение данных встречи: технико-экономическое обоснование (PDF) .
- Энни, Луи (2009). Оценка достоверности производительности для автоматического обобщения .
- Елена, Льорет и Мануэль, Паломар (2009). Сложные вопросы автоматического обобщения: определение релевантности и оценка на основе качества .
- Эндрю, Голдберг (2007). Автоматическое обобщение .
- Алрехами, Хасан (2017). «SemCluster: неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства». Автоматическое извлечение ключевых фраз . Достижения в интеллектуальных системах и вычислениях. 650 . С. 222–235. DOI : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
- Эндрес-Ниггемейер, Бриджит (1998). Обобщение информации . ISBN 978-3-540-63735-6.
- Марку, Даниэль (2000). Теория и практика разбора и обобщения дискурса . ISBN 978-0-262-13372-2.
- Мани, Индерджит (2001). Автоматическое обобщение . ISBN 978-1-58811-060-2.
- Хафф, Джейсон (2010). AutoSummarize ., Концептуальные изображения с использованием программного обеспечения автоматического реферирования в Microsoft Word 2008.
- Лехмам, Абдеррафих (2010). Essential summarizer: инновационное программное обеспечение для автоматического реферирования текста на двадцати языках - ACM Digital Library . Riao '10. С. 216–217., Опубликовано в Proceeding RIAO'10 Адаптивность, персонализация и объединение разнородной информации, CID Париж, Франция
- Сяоцзинь, Чжу, Эндрю Голдберг, Юрген Ван Гаэль и Дэвид Анджеевски (2007). Повышение разнообразия в рейтинге с помощью увлекательных случайных блужданий (PDF) ., Алгоритм GRASSHOPPER
- Миранда-Хименес, Сабино, Гельбух, Александр и Сидоров, Григорий (2013). «Обобщение концептуальных графиков для задачи автоматического обобщения». Концептуальные структуры для исследований и образования STEM . Конспект лекций по информатике. 7735 . С. 245–253. DOI : 10.1007 / 978-3-642-35786-2_18 . ISBN 978-3-642-35785-5., Концептуальные структуры для исследований и образования STEM.