Автоматическое суммирование

Автоматическое суммирование — это процесс сокращения набора данных с помощью вычислений для создания подмножества ( резюме ), представляющего наиболее важную или релевантную информацию в исходном контенте.

В дополнение к тексту, изображения и видео также могут быть обобщены. Обобщение текста находит наиболее информативные предложения в документе; ^[1] различные методы суммирования изображений являются предметом текущих исследований, при этом некоторые стремятся отобразить наиболее репрезентативные изображения из данной коллекции или создать видео; ^[2]^[3]^[4] при суммировании видео извлекаются наиболее важные кадры из видеоконтента. ^[5]

Здесь контент извлекается из исходных данных, но извлеченный контент никак не модифицируется. Примеры извлеченного контента включают ключевые фразы, которые можно использовать для «пометки» или индексирования текстового документа, или ключевые предложения (включая заголовки), которые в совокупности составляют аннотацию, репрезентативные изображения или видеофрагменты, как указано выше. Для текста извлечение аналогично процессу беглого просмотра, когда резюме (если доступно), заголовки и подзаголовки, рисунки, первый и последний абзацы раздела и, возможно, первое и последнее предложения в абзаце читаются перед тем, как выбрать подробно прочитать весь документ. ^[7] Другие примеры извлечения, которые включают ключевые последовательности текста с точки зрения клинической значимости (включая пациента/проблему, вмешательство и результат). ^[8]

Это применялось в основном для текста. Абстрактные методы строят внутреннее семантическое представление исходного содержания, а затем используют это представление для создания резюме, более близкого к тому, что может выразить человек. Абстракция может преобразовывать извлеченный контент путем перефразирования разделов исходного документа, чтобы сжать текст сильнее, чем при извлечении. Такое преобразование, однако, в вычислительном отношении намного сложнее, чем извлечение, и требует как обработки естественного языка, так и часто глубокого понимания предметной области исходного текста в тех случаях, когда исходный документ относится к специальной области знаний. «Перефразирование» еще сложнее применить к изображениям и видео, поэтому большинство систем обобщения являются экстрактивными.

Подходы, направленные на более высокое качество обобщения, основаны на сочетании программного обеспечения и человеческих усилий. В автоматизированном человеческом обобщении методы извлечения выделяют отрывки-кандидаты для включения (к которым человек добавляет или удаляет текст). В Human Aided Machine Summarization человек выполняет постобработку вывода программного обеспечения так же, как он редактирует вывод автоматического перевода с помощью Google Translate.

В целом существует два типа задач экстрактивного реферирования в зависимости от того, на чем фокусируется программа реферирования. Первый — это общее обобщение , которое направлено на получение общего резюме или реферата коллекции (будь то документы, наборы изображений, видео, новости и т. д.). Второй — обобщение, релевантное запросу , иногда называемое суммированием на основе запроса , которое суммирует объекты, характерные для запроса. Системы суммирования могут создавать как релевантные для запроса текстовые сводки, так и общие сводки, сгенерированные машиной, в зависимости от того, что нужно пользователю.