Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Лексический выбор - это подзадача создания естественного языка, которая включает в себя выбор слов содержания (существительных, глаголов, прилагательных и наречий) в сгенерированном тексте. Функциональные слова (например, определители) обычно выбираются при реализации .

Примеры [ править ]

Простейший тип лексического выбора включает отображение понятия предметной области (возможно, представленного в онтологии ) в слово. Например, понятие « палец» можно сопоставить со словом « палец» .

Более сложная ситуация - когда понятие предметной области выражается разными словами в разных ситуациях. Например, понятие предметной области « Изменение ценности» можно выразить по-разному.

  • Температура выросла : глагол rose используется для изменения значения температуры, которое увеличивает значение
  • Температура упала : глагол « упал» используется для изменения значения температуры, которое уменьшает значение.
  • Дождь усилился : фраза « стал сильнее» используется для изменения значения количества осадков, когда идет дождь.

Иногда слова могут передавать дополнительную контекстную информацию, например

  • Температура резко упала : глагол « резко упал» используется для обозначения изменения значения температуры, которое уменьшает значение, когда изменение быстрое и большое.

Контекстная информация особенно важна для неопределенных терминов, таких как высокий . Например, двухметровый мужчина - высокий , а двухметровая лошадь - небольшая .

Лингвистическая перспектива [ править ]

Модули лексического выбора должны быть информированы лингвистическими знаниями о том, как входные данные системы отображаются на слова. Это вопрос семантики , но на него также влияют синтаксические факторы (например, эффекты коллокации ) и прагматические факторы (например, контекст).

Следовательно, системам NLG необходимы лингвистические модели того, как значение отображается в словах в целевой области ( жанре ) системы NLG. Жанр, как правило, очень важен; например, глагол veer имеет очень специфическое значение в прогнозах погоды (направление ветра меняется по часовой стрелке), которого нет в обычном английском языке, и генератор прогнозов погоды должен знать об этом специфическом для жанра значении.

В некоторых случаях есть большие различия в том, как разные люди используют одно и то же слово; [1] Например, некоторые люди используют термин « вечер» для обозначения 18:00, а другие - для обозначения полуночи. Психолингвисты показали, что, когда люди разговаривают друг с другом, они соглашаются на общую интерпретацию посредством лексического согласования; [2] это еще не то, что системы NLG могут делать.

В конечном счете, лексический выбор должен иметь дело с фундаментальным вопросом о том, как язык соотносится с неязыковым миром. [3] Например, системе, которая выбирает цветовые термины, такие как красный, для описания объектов в цифровом изображении, необходимо знать, какие значения пикселей RGB обычно можно описать как красный ; как на это повлиял визуальный (освещение, другие объекты сцены) и лингвистический (обсуждаемые другие объекты) контекст; какие прагматические коннотации были связаны с красным цветом (например, когда яблоко называют красным , предполагается, что оно спелое, а также имеет красный цвет); и так далее.

Алгоритмы и модели [ править ]

Ряд алгоритмов и моделей был разработан для лексического выбора в исследовательском сообществе [4], например, Эдмондс разработал модель для выбора между почти синонимами (словами с похожими основными значениями, но разными коннотациями). [5] Однако такие алгоритмы и модели не получили широкого распространения в прикладных системах NLG; такие системы вместо этого часто использовали довольно простые вычислительные модели и вкладывали усилия при разработке в лингвистический анализ вместо разработки алгоритмов.

Ссылки [ править ]

  1. ^ E Reiter и S Sripada (2002). Человеческое разнообразие и лексический выбор. Компьютерная лингвистика 28: 545-553. [1]
  2. ^ S Бреннан и Х. Кларк (1996). Концептуальные пакты и лексический выбор в разговоре. Журнал экспериментальной психологии: обучение, память и познание 22: 1482-1493
  3. ^ D Рой и E Reiter (2005). Связь языка с миром. Искусственный интеллект 167: 1-12.
  4. ^ Перера, Р. и Нанд, P 2015. Многостратегический подход к лексикализации связанных открытых данных.
  5. ^ П. Эдмондс и Г. Херст (2002). Почти-синонимия и лексический выбор. Компьютерная лингвистика 28: 105-144. [2]