Структурирование документа - это подзадача создания естественного языка , которая включает определение порядка и группировку (например, в абзацы) предложений в сгенерированном тексте. Это тесно связано с задачей NLG « Определение содержания» .
Пример
Предположим, у нас есть четыре предложения, которые мы хотим включить в сгенерированный текст.
- В субботу будет дождь
- В воскресенье будет солнечно
- Максимальная температура в субботу составит 10 ° C.
- Максимальная температура в воскресенье составит 15 ° C.
Есть 24 (4!) Порядка этих сообщений, включая
- (1234) В субботу будет дождь. В воскресенье будет солнечно. Максимальная температура в субботу составит 10 ° C. Максимальная температура в воскресенье составит 15 ° C.
- (2341) В воскресенье будет солнечно. Максимальная температура в субботу составит 10 ° C. Максимальная температура в воскресенье составит 15 ° C. В субботу будет дождь.
- (4321) Максимальная температура в воскресенье составит 15 ° C. Максимальная температура в субботу составит 10 ° C. В воскресенье будет солнечно. В субботу будет дождь.
Некоторые из этих порядков лучше, чем другие. Например, из текстов, показанных выше, читатели предпочитают (1234), а не (2314) и (4321).
Для любого порядка есть также много способов, которыми предложения могут быть сгруппированы в абзацы и структуры более высокого уровня, такие как разделы. Например, есть 8 (2 ** 3) способов, которыми предложения в (1234) могут быть сгруппированы в абзацы, включая
- (12) (34)
- В субботу будет дождь. В воскресенье будет солнечно.
- Максимальная температура в субботу составит 10 ° C. Максимальная температура в воскресенье составит 15 ° C.
- (1) (23) (4)
- В субботу будет дождь.
- В воскресенье будет солнечно. Максимальная температура в субботу составит 10 ° C.
- Максимальная температура в воскресенье составит 15 ° C.
Как и в случае с порядком, люди-читатели предпочитают одни группы другим; например, (12) (34) предпочтительнее (1) (23) (4).
Задача структурирования документа состоит в том, чтобы выбрать порядок и группировку предложений, которые с точки зрения читателя приводят к созданию связного и хорошо организованного текста.
Алгоритмы и модели
Существует три основных подхода к структурированию документов: схемный, корпусный и эвристический.
Схемы [1] - это шаблоны, которые явно определяют порядок предложений и группировку для документа (а также информацию об определении содержания ). Обычно они создаются путем ручного анализа корпуса текстов, написанных людьми в целевом жанре, и извлечения из этих текстов шаблона документа. Схемы хорошо работают на практике для текстов, которые короткие (5 предложений или меньше) и / или имеют стандартизованную структуру, но имеют проблемы при создании текстов, которые длиннее и не имеют фиксированной структуры.
В методах структурирования на основе корпусов используются методы статистического анализа корпусов для автоматического построения моделей упорядочения и / или группирования. Такие методы распространены в автоматическом реферировании , когда компьютерная программа автоматически генерирует резюме текстового документа. [2] В принципе, они могут быть применены к тексту, созданному из неязыковых данных, но эта работа находится в зачаточном состоянии; Отчасти проблема заключается в том, что от текстов, генерируемых системами генерации естественного языка, обычно ожидается достаточно высокое качество, что не всегда бывает в случае текстов, генерируемых системами автоматического реферирования.
Последний подход - это эвристическое структурирование. Такие алгоритмы выполняют задачу структурирования на основе эвристических правил, которые могут исходить из теорий риторики [3], психолингвистических моделей [4] и / или комбинации интуиции и обратной связи от пилотных экспериментов с потенциальными пользователями. [5] Эвристическое структурирование привлекательно с интеллектуальной точки зрения, но может быть трудно заставить его хорошо работать на практике, отчасти потому, что эвристика часто зависит от семантической информации (как предложения соотносятся друг с другом), которая не всегда доступна. С другой стороны, эвристические правила могут фокусироваться на том, что лучше всего подходит для читателей текста, тогда как другие подходы сосредоточены на имитации авторов (а многие тексты, написанные людьми, плохо структурированы).
Повествование
Возможно, основная задача структурирования документа - создать хорошее повествование - другими словами, текст, который начинается с постановки сцены и введения / обзора; затем четко описывает набор событий, чтобы читатели могли легко увидеть, как отдельные события связаны и связаны друг с другом; и заканчивается резюме / финалом. Обратите внимание, что повествование в этом смысле относится как к фактическим текстам, так и к рассказам. Текущие системы NLG плохо справляются с созданием повествований, и это является основным источником критики со стороны пользователей. [6]
Создание хороших повествований - задача для всех аспектов NLG, но, вероятно, самая фундаментальная проблема заключается в структурировании документов.
Рекомендации
- ^ K Маккеаун (1985). Генерация текста . Издательство Кембриджского университета
- ^ М Лапата (2003). Вероятностное структурирование текста: эксперименты с упорядочением предложений. Материалы ACL-2003 [1]
- ^ D Скотт и C де Соуза (1990). Передача сообщения в генерации текста на основе RST. In Dale, Mellish, Zock (eds) Текущие исследования в области генерации естественного языка , страницы 47-73
- ^ N Karamanis, М Poesio, С Mellish, J Оберландер (2004). Оценка основанных на центрировании показателей согласованности для структурирования текста с использованием надежно аннотированного корпуса. Материалы ACL-2004 [2]
- ^ S Williams и E Reiter. Создание отчетов об основных навыках для читателей с низким уровнем квалификации. Инженерия естественного языка 14: 495-535
- ^ E Reiter, A. Gatt, F Portet, M van der Meulen (2008). Важность рассказа и других уроков из оценки системы NLG, которая обобщает клинические данные. В материалах INLG-2008 [3]