Толковый комбинаторный словарь


Толковый комбинаторный словарь (ECD) — это тип одноязычного словаря , предназначенный для использования в лингвистической модели смыслового текста естественного языка. [1] [2] [3] Он предназначен для полной записи лексики данного языка. [4] Таким образом, он идентифицирует и описывает в отдельных статьях каждую из лексем языка (грубо говоря, каждое слово или набор флективных форм, основанных на одной основе) и фразем (грубо говоря, идиомы и другие фиксированные многословные формы). выражения). Помимо прочего, каждая запись содержит (1) определение, включающее семантические актанты лексемы (например, определение словаgive принимает форму X дает Y Z , где выражены три его актанта — дающий X , вещь, данная Y , и лицо, которому дается Z ) (2) полная информация о лексическом совпадении (например, запись для нападения говорит вам, что одним из его словосочетаний является запуск атаки , запись для вечеринки обеспечивает проведение вечеринки , а запись для лекции обеспечивает проведение лекции , что позволяет пользователю избежать ошибки, например * доставить вечеринку); (3) обширный набор примеров. ECD является производственным словарем, то есть он направлен на предоставление всей информации, необходимой иностранному ученику или автомату для создания идеально сформированных высказываний языка. Поскольку лексем и фразем в естественном языке исчисляются сотнями тысяч, полное РЗД в бумажной форме заняло бы место в большой энциклопедии. Такую работу еще предстоит выполнить; в то время как ECD русского и французского языков были опубликованы, каждый из них описывает менее одного процента словарного запаса соответствующих языков.

ECD был предложен в конце 1960-х годов Александром Жолковским и Игорем Мельчуком [5] [6] [7] и позже получил дальнейшее развитие Юрием Апресяном. [8] [9] [10] [11] [12] [13] [ 14] [15] [16] В настоящее время в печатном виде доступны три РЗД: один на русском языке, [17] и два на французском языке. [18] [19] Словарь испанских словосочетаний — DICE (= Diccionario de colocaciones del español) — находится в стадии разработки. [20] [21]

Полный ECD языка будет содержать запись для каждой лексемы, конструкции или идиомы, которые в совокупности называются «лексическими единицами» (LU), используемыми в языке. Записи в ECD основаны на семантическом определении ЛЕ, и каждая запись также содержит полный список ее словосочетаний и лексических функций . [22]

Записи для исторически связанных лексических единиц, которые являются омофонами и имеют общий значительный семантический компонент (т. е. значения), группируются в более крупные единицы, называемые «вокабулами», тем самым признавая полисемию , сохраняя при этом особый статус рассматриваемых независимых единиц. Английская вокабула Improve , например, включает в себя шесть лексических единиц, каждая из которых снабжена отдельной лексической записью:

Лексикографические числа (выделенные жирным шрифтом после вводного слова) отражают степени или уровни семантической дистанции между лексическими единицами внутри вокабулы: римские цифры обозначают семантические группировки самого высокого уровня, арабские цифры обозначают следующий высший уровень, а буквы обозначают самый низкий уровень. ровные расстояния. Например , четыре лексемы, сгруппированные под УЛУЧШЕНИЕМ I , считаются более близкими друг к другу, чем УЛУЧШИТЬ II или УЛУЧШИТЬ III , потому что значения каждого из УЛУЧШИТЬ I.1b и УЛУЧШИТЬ I.2 фактически включают значение УЛУЧШИТЬ I. 1а . УЛУЧШИТЬ I.1a и УЛУЧШИТЬ I.1bеще более тесно связаны, потому что в английском языке есть много пар слов, в частности, лабильные или амбитранзитивные глаголы, которые связаны семантическим чередованием «P» ~ «вызывать 1 в P» (как указано выше, «улучшать» ~ «вызывать улучшить').

Нижние и верхние индексы, прикрепленные к словам в определении, относятся к подсмыслам (нижним индексам) и омофонным статьям (верхним индексам) для слова, как указано в словаре современного английского языка Лонгмана [23] — таким образом, «устройство 1 1 » относится к первому запись для устройства в этом словаре, первый подсмысл.