Определение содержания - это подзадача генерации естественного языка (NLG), которая включает принятие решения о том, какая информация должна передаваться в сгенерированном тексте. Это тесно связано с задачей структурирования документа .
Пример
Рассмотрим систему NLG, которая обобщает информацию о больных младенцах. [1] Предположим, у этой системы есть четыре элемента информации, которые она может передавать.
- Ребенку вводят морфин внутривенно.
- Частота сердечных сокращений ребенка показывает брадикардию (временные спады)
- Температура у малыша в норме
- Ребенок плачет
Какие из этих битов информации следует включать в сгенерированные тексты?
вопросы
Есть три общие проблемы, которые почти всегда влияют на задачу определения контента, и их можно проиллюстрировать на приведенном выше примере.
Возможно, наиболее фундаментальным вопросом является коммуникативная цель текста, то есть его цель и читатель . В приведенном выше примере, например, врач, который хочет принять решение о лечении, вероятно, будет больше всего заинтересован в брадикардии сердечного ритма, в то время как родитель, который хотел бы знать, как дела у ее ребенка, вероятно, был бы больше заинтересован в этом факте. что ребенку давали морфин и он плакал.
Вторая проблема - это размер и уровень детализации сгенерированного текста. Например, краткое резюме, которое было отправлено врачу в виде текстового SMS-сообщения из 160 символов, может упоминать только брадикарии сердечного ритма, в то время как более длинное резюме, которое было распечатано в виде многостраничного документа, может также упоминать факт, морфин IV.
Последний вопрос - насколько необычна и неожиданна информация. Например, ни врачи, ни родители не придавали бы первостепенное значение тому, чтобы им сказали, что температура у ребенка нормальная, если бы они ожидали, что это так.
Тем не менее, определение контента очень важно для пользователей, ведь во многих случаях качество определения контента является наиболее важным фактором (с точки зрения пользователя) при определении общего качества сгенерированного текста.
Методы
Существует три основных подхода к структурированию документов: схемы (шаблоны контента), статистические подходы и явное обоснование.
Схемы [2] - это шаблоны, которые явно определяют содержание сгенерированного текста (а также информацию о структурировании документа ). Обычно они создаются путем ручного анализа корпуса текстов, написанных людьми в целевом жанре, и извлечения из этих текстов шаблона контента. Схемы хорошо работают на практике в областях, где контент несколько стандартизирован, но хуже работают в областях, где контент более подвижен (например, в медицинском примере выше).
Статистические методы используют методы статистического анализа корпуса для автоматического определения содержания сгенерированных текстов. Такая работа находится в зачаточном состоянии и в основном применяется в контекстах, где коммуникативная цель, читатель, размер и уровень детализации фиксированы. Например, формирование сводок спортивных событий в ленте. [3] [4]
Подходы к явным рассуждениям , вероятно, привлекли наибольшее внимание исследователей. Основная идея состоит в том, чтобы использовать методы рассуждения ИИ (такие как правила, основанные на знаниях, [1] планирование, [5] обнаружение закономерностей, [6] рассуждение на основе случаев , [7] и т. Д.) Для изучения информации, доступной для передачи. (включая то, насколько это необычно / неожиданно), коммуникативную цель и читателя, а также характеристики сгенерированного текста (включая целевой размер), а также принять решение об оптимальном содержании для сгенерированного текста. Был исследован очень широкий спектр методов, но нет единого мнения относительно того, какой из них наиболее эффективен.
Рекомендации
- ^ a b Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C (2009). «Автоматическое создание текстовых резюме из данных неонатальной интенсивной терапии» . Искусственный интеллект . 173 (7–8): 789–816. DOI : 10.1016 / j.artint.2008.12.002 .
- ^ K Маккеаун (1985). Генерация текста . Издательство Кембриджского университета
- ^ R Barzilay и М Lapata (2005). Коллективный отбор контента для генерации концепции в текст. Материалы ЕМНЛП-2005 [1]
- ^ Р и Р Перер Нанд (2014). Роль связанных данных в выборе контента. Материалы PRICAI-2014 [2]
- ^ Дж Мур и C Пэрис (1993). Планирование текста для консультативных диалогов: сбор преднамеренной и риторической информации. Computational Linguistics 19: 651-694 [3] Архивировано 30 сентября 2011 г.в Wayback Machine.
- Перейти ↑ J Yu, E Reiter, J Hunter, C Mellish (2007). Выбор содержания текстовых резюме больших наборов данных временных рядов. Инженерия естественного языка 13: 25-49
- ^ P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005) Создание сюжета сюжета на основе CBR. Системы, основанные на знаниях 18: 235-242