Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В компьютерной лингвистике , разрешение лексической многозначности ( WSD ) является открытой проблемой связаны с определением того, какие чувства из слова используются в предложении . Решение этой проблемы влияет на другие виды компьютерного письма, такие как дискурс , повышение релевантности поисковых систем , разрешение анафор , согласованность и логический вывод .

Человеческий мозг довольно искусен в слове смысл неоднозначности. Этот естественный язык сформирован таким образом, чтобы от него требовалось так много отражения неврологической реальности. Другими словами, человеческий язык развивался таким образом, чтобы отражать (а также помогать формировать) врожденные способности, предоставляемые нейронными сетями мозга . В компьютерных науках и информационных технологиях, которые они позволяют, было долгой задачей развить в компьютерах способность обрабатывать естественный язык и машинное обучение .

Было исследовано большое разнообразие методов, от методов на основе словарей, использующих знания, закодированные в лексических ресурсах, до контролируемых методов машинного обучения, в которых классификатор обучается для каждого отдельного слова в корпусе примеров с ручной смысловой аннотацией, до полностью неконтролируемые методы, которые группируют вхождения слов, тем самым вызывая смысловую нагрузку слов. Среди них подходы к обучению с учителем на сегодняшний день являются наиболее успешными алгоритмами .

Трудно заявить о точности существующих алгоритмов без множества оговорок. На английском языке точность на уровне крупнозернистого ( омографа ) обычно превышает 90%, а некоторые методы на определенных омографах достигают более 96%. Что касается более тонких различий чувств, максимальная точность от 59,1% до 69,0% была зафиксирована в оценочных упражнениях (SemEval-2007, Senseval-2), где базовая точность простейшего возможного алгоритма выбора всегда наиболее частого смысла составила 51,4%. и 57% соответственно.

О [ править ]

Disambiguation требует два жестких входов: а словарных указать чувства , которые должны быть снята неоднозначностью и корпус из языковых данных для многозначных (в некоторых методах, обучение корпус примеров языка также требуется). Задача WSD имеет два варианта: « лексический образец » и « все слова»."задача. Первый включает устранение неоднозначности вхождений небольшой выборки целевых слов, которые были ранее выбраны, в то время как во втором все слова в фрагменте текущего текста необходимо устранить неоднозначность. Последнее считается более реалистичной формой оценки, но создание корпуса обходится дороже, потому что аннотаторы-люди должны читать определения для каждого слова в последовательности каждый раз, когда им нужно сделать оценку тегов, а не один раз для блока экземпляров для одного и того же целевого слова.

Чтобы понять, как все это работает, рассмотрим три примера различных смыслов, которые существуют для (письменного) слова « бас »:

  1. вид рыбы
  2. тона низкой частоты
  3. тип инструмента

и предложения:

  1. Я пошел ловить морского окуня.
  2. Басовая линия в песне слишком слабая.

Для людей , которые понимают английский язык, первое предложение использовать слово « бас (рыба) » / б æ сек / , как и в прежнем смысле выше , и во втором предложении слова « бас (инструмент) » / б eɪ s / используется как в последнем смысле ниже. Разработка алгоритмов для воспроизведения этой способности человека часто может быть сложной задачей, что еще раз подтверждается неявной двусмысленностью между « басом (звук) » и « басом (инструмент) ».

История [ править ]

WSD был впервые сформулирован как отдельная вычислительная задача на заре машинного перевода в 1940-х годах, что сделало его одной из старейших проблем компьютерной лингвистики. Уоррен Уивер в своем знаменитом меморандуме 1949 года о переводе [1] впервые представил проблему в вычислительном контексте. Ранние исследователи хорошо понимали важность и сложность WSD. Фактически, Бар-Хиллель (1960) использовал приведенный выше пример, чтобы аргументировать [2], что WSD не может быть решена с помощью «электронного компьютера» из-за необходимости в целом моделировать все мировые знания.

В 1970-х WSD была подзадачей систем семантической интерпретации, разработанной в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время в основном основывались на правилах и кодировались вручную, они были склонны к узким местам в получении знаний.

К 1980-м годам стали доступны крупномасштабные лексические ресурсы, такие как Oxford Advanced Learner's Dictionary of Current English (OALD): ручное кодирование было заменено знаниями, автоматически извлеченными из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях. .

В 1990-е годы статистическая революция охватила компьютерную лингвистику, и WSD превратилась в парадигму проблемы, к которой можно было применить методы контролируемого машинного обучения.

В 2000-е годы контролируемые методы достигли плато в точности, и поэтому внимание переключилось на более грубые смыслы, адаптацию к предметной области, полу-контролируемые и неконтролируемые системы на основе корпусов, комбинации различных методов и возвращение систем, основанных на знаниях, через графы. -основные методы. Тем не менее, контролируемые системы продолжают работать лучше всего.

Трудности [ править ]

Различия между словарями [ править ]

Одна из проблем, связанных с устранением неоднозначности смысла слова, - это определение чувств. В случаях, подобных приведенному выше слову « бас» , по крайней мере, некоторые значения явно отличаются. В других случаях, однако, разные смыслы могут быть тесно связаны (одно значение является метафорическим или метонимическим расширением другого), и в таких случаях деление слов на смыслы становится намного труднее. Различные словари и тезаурусы обеспечат различное деление слов на смыслы. Одно из решений, которое использовали некоторые исследователи, - это выбрать конкретный словарь и просто использовать его набор смыслов. Однако в целом результаты исследований с использованием широких различий в чувствах были намного лучше, чем результаты исследований с использованием узких. [3][4] Однако, учитывая отсутствие полноценной крупнозернистой инвентаризации смысла, большинство исследователей продолжают работать над мелкозернистым WSD.

Большинство исследований в области WSD выполняется с использованием WordNet в качестве справочного материала для английского языка. WordNet - это вычислительный лексикон, который кодирует понятия как наборы синонимов (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, используемые для устранения неоднозначности, включают Тезаурус Роджера [5] и Википедию . [6] Совсем недавно BabelNet , многоязычный энциклопедический словарь, использовался для многоязычного WSD. [7]

Пометка части речи [ править ]

В любом реальном тесте тегирование части речи и тегирование смысла очень тесно связаны друг с другом, потенциально ограничивая друг друга. И вопрос о том, должны ли эти задачи быть вместе или разделены, все еще не решен единогласно, но в последнее время ученые склонны тестировать эти вещи по отдельности (например, в соревнованиях Senseval / SemEval части речи предоставляются в качестве входных данных для устранения неоднозначности текста).

Поучительно сравнить проблему разрешения неоднозначности смысла слова с проблемой тегирования части речи. Оба включают устранение неоднозначности или пометку слов, будь то чувства или части речи. Однако алгоритмы, используемые для одного, не работают хорошо для другого, в основном потому, что часть речи слова в первую очередь определяется непосредственно соседними от одного до трех слов, тогда как смысл слова может определяться более удаленными словами. . Уровень успеха для алгоритмов тегирования части речи в настоящее время намного выше, чем для WSD, современное состояние составляет около 95% [ необходима ссылка ] или лучше, по сравнению с менее чем 75% [ требуется ссылка ] точность в устранении неоднозначности в смысле слова сконтролируемое обучение . Эти цифры типичны для английского языка и могут сильно отличаться от данных для других языков.

Дисперсия между судьями [ править ]

Другая проблема - это расхождения между судьями . Системы WSD обычно тестируются путем сравнения результатов выполнения задачи с результатами человека. Однако, хотя связать части речи с текстом относительно легко, научить людей помечать чувства гораздо сложнее. [8] В то время как пользователи могут запоминать все возможные части речи, которые может принимать слово, часто бывает невозможно запомнить все смыслы, которые может принимать слово. Более того, люди не согласны с поставленной задачей - приведите список смыслов и предложений, и люди не всегда согласятся, какое слово в каком смысле принадлежит. [9]

Поскольку производительность человека является стандартом, это верхний предел производительности компьютера. Однако человеческая производительность намного лучше по грубым, чем мелкозернистым различиям, так что это снова является причиной того, что исследования по грубым различиям [10] [11] были проверены в недавних оценочных упражнениях WSD. [3] [4]

Прагматика [ править ]

Некоторые исследователи искусственного интеллекта, такие как Дуглас Ленат, утверждают, что нельзя анализировать значения слов без какой-либо онтологии здравого смысла . Этот лингвистический вопрос называется прагматикой . Например, сравнивая эти два предложения:

  • «Джилл и Мэри - матери». - (каждый независимо мать).
  • «Джилл и Мэри - сестры». - (они сестры друг другу).

Чтобы правильно определять смысл слов, нужно знать факты здравого смысла. [12] Более того, иногда требуется здравый смысл, чтобы устранить неоднозначность таких слов, как местоимения, в случае наличия в тексте анафор или катафор .

Смысловой инвентарь и зависимость алгоритмов от задач [ править ]

Независимый от задачи перечень смыслов не является согласованным понятием: [13] каждая задача требует своего собственного разделения значения слова на смыслы, относящиеся к задаче. Например, двусмысленность слова « мышь » (животное или устройство) не имеет отношения к англо-французскому машинному переводу , но имеет значение при поиске информации . Обратное верно для слова «река», которое требует выбора во французском языке ( fleuve «впадает в море» или rivière «впадает в реку»).

Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема заключается в выборе целевого слова. Здесь «смыслы» - это слова на целевом языке, которые часто соответствуют значительным различиям значений в исходном языке («банк» может переводиться с французского «banque» - то есть «финансовый банк» или «рив»), то есть есть, «край реки»). При поиске информации инвентаризация смысла не обязательно требуется, потому что достаточно знать, что слово используется в одном и том же смысле в запросе и в извлеченном документе; какой это смысл, неважно.

Дискретность чувств [ править ]

Наконец, само понятие « смысл слова » скользкое и противоречивое. Большинство людей могут согласиться в различиях на уровне грубого омографа (например, ручка как пишущий инструмент или корпус), но спускаются на один уровень вниз до мелкозернистой многозначности , и возникают разногласия. Например, в Senseval-2, в котором использовались тонкие смысловые различия, аннотаторы-люди соглашались только в 85% случаев появления слов. [14] Значение слова в принципе бесконечно варьируется и зависит от контекста. Его нелегко разделить на отдельные или отдельные подзначения. [15] Лексикографычасто обнаруживают в корпусах нечеткие и частично совпадающие значения слов, а также стандартные или общепринятые значения, расширенные, модулируемые и используемые самым разнообразным образом. Искусство лексикографии состоит в том, чтобы делать обобщения от корпуса до определений, которые вызывают и объясняют весь диапазон значений слова, создавая впечатление, что слова имеют хорошее семантическое поведение. Однако совсем не ясно, применимы ли эти же различия значений в вычислительных приложениях , поскольку решения лексикографов обычно основываются на других соображениях. В 2009 году в качестве возможного решения проблемы смысловой дискретности была предложена задача - лексическая подстановка . [16] Задача состоит в предоставлении замены для слова в контексте, сохраняющей значение исходного слова (потенциально, замены могут быть выбраны из полного лексикона целевого языка, таким образом преодолевая дискретность).

Подходы и методы [ править ]

Как и во всей обработке естественного языка , есть два основных подхода к WSD - глубокие подходы и поверхностные подходы .

Глубинные подходы предполагают доступ к обширной совокупности мировых знаний . Такие знания, как «вы можете ловить рыбу, но не ловить низкочастотные звуки» и «песни содержат низкочастотные звуки как части, но не виды рыб», затем используются для определения, в каком смысле слово « окунь». используется. Эти подходы не очень успешны на практике, главным образом потому, что такой объем знаний не существует в машиночитаемом формате за пределами очень ограниченных областей. [17] Однако, если бы такие знания действительно существовали, то глубокие подходы были бы намного точнее, чем поверхностные подходы. [ необходима цитата ] Кроме того, в компьютерной лингвистике существует давняя традиция, попробовать такие подходы с точки зрения закодированных знаний, и в некоторых случаях трудно четко сказать, является ли задействованное знание лингвистическим или мировым. Первая попытка была предпринята Маргарет Мастерман и ее коллегами из Кембриджского отделения языковых исследований в Англии в 1950-х годах. Эта попытка использовала в качестве данных перфокарточную версию Тезауруса Роджера и пронумерованные «заголовки» в качестве индикатора тем и искала повторы в тексте, используя заданный алгоритм пересечения. Он не был очень успешным [18], но имел прочные связи с более поздними работами, особенно с оптимизацией тезауруса методом машинного обучения Яровским в 1990-х годах.

Поверхностные подходы не пытаются понять текст. Они просто рассматривают окружающие слова, используя такую ​​информацию, как «если у окуня есть слова море или рыбалка поблизости, это, вероятно, в смысле рыбы; если у окуня есть слова музыка или песня рядом, это, вероятно, в музыкальном смысле». Эти правила могут быть автоматически выведены компьютером с использованием обучающего корпуса слов, помеченных их смыслами слов. Этот подход, хотя теоретически и не так эффективен, как глубокие подходы, дает превосходные результаты на практике из-за ограниченного знания компьютера о мире. Однако его можно сбить с толку такими предложениями, как «Собаки лают на дерево», в которых есть словолаять рядом с деревом и собаками .

Существует четыре традиционных подхода к WSD:

  • Словарные и основанные на знаниях методы: они полагаются, прежде всего, на словари, тезаурусы и лексические базы знаний , без использования каких-либо доказательств.
  • Полу-контролируемые или минимально контролируемые методы : они используют вторичный источник знаний, такой как небольшой аннотированный корпус в качестве исходных данных в процессе начальной загрузки или выровненный по словам двуязычный корпус.
  • Контролируемые методы : они используют аннотированные тела для обучения.
  • Неконтролируемые методы : они избегают (почти) полностью внешней информации и работают непосредственно из необработанных неаннотированных корпусов. Эти методы также известны под названием « распознавание смысла слов» .

Почти все эти подходы обычно работают, определяя окно из n слов содержания вокруг каждого слова, чтобы устранить неоднозначность в корпусе, и статистически анализируя эти n окружающих слов. Два неглубоких подхода, используемых для обучения и устранения неоднозначности, - это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра, такие как машины опорных векторов , показали превосходную производительность при обучении с учителем . Подходы, основанные на графах, также привлекли большое внимание исследовательского сообщества и в настоящее время достигают показателей, близких к современным.

Методы, основанные на словарях и знаниях [ править ]

Метод лесок [19] является семенным на основе словаря метода. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются путем нахождения пары словарных значений с наибольшим перекрытием слов в их словарных определениях. Например, при устранении неоднозначности слов в слове «сосновая шишка» определения соответствующих смыслов включают в себя слова «вечнозеленое растение» и «дерево» (по крайней мере, в одном словаре). Аналогичный подход [20]ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общего смыслового родства слов и вычисление семантического сходства каждой пары смыслов слова на основе данной лексической базы знаний, такой как WordNet . Графические методы, напоминающие распространяющиеся исследования активации первых дней исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы [21], или даже превосходят их в определенных областях. [3] [22] Недавно было сообщено, что простые меры связности графов , такие как степень, выполнять WSD по последнему слову техники при наличии достаточно богатой лексической базы знаний. [23] Кроме того, было показано , что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet способствует развитию простых методов, основанных на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в параметрах предметной области. [24]

Использование предпочтений выбора (или ограничений выбора ) также полезно, например, зная, что обычно готовят еду, можно устранить неоднозначность слова «бас» в слове «Я готовлю басы» (т. Е. Это не музыкальный инструмент).

Контролируемые методы [ править ]

Контролируемые методы основаны на предположении, что контекст сам по себе может предоставить достаточно доказательств, чтобы устранить неоднозначность слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый алгоритм машинного обучения был применен к WSD, включая связанные методы, такие как выбор функций , оптимизация параметров и ансамблевое обучение . Поддержка векторных машин и обучения на основе памятибыли показаны как наиболее успешные подходы на сегодняшний день, вероятно, потому, что они могут справиться с высокой размерностью пространства признаков. Однако у этих контролируемых методов возникает новое узкое место в получении знаний, поскольку для обучения они полагаются на значительное количество вручную помеченных сенсорными метками корпусов, создание которых является трудоемким и дорогостоящим.

Полу-контролируемые методы [ править ]

Из-за нехватки обучающих данных многие алгоритмы устранения неоднозначности слов используют полу-контролируемое обучение , которое позволяет использовать как помеченные, так и немаркированные данные. Алгоритм Yarowsky был ранним примером такого алгоритма с. [25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для устранения неоднозначности слов. По наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве данных дискурса и в данном словосочетании. [ необходима цитата ]

В самонастройки подход начинается с небольшого количества данных семян для каждого слова: либо вручную меченых обучающих примеров или небольшого числа решающих правил SUREFIRE (например, «играть» в контексте «баса» почти всегда указывает на музыкальном инструменте). Семена используются для обучения начального классификатора с использованием любого контролируемого метода. Затем этот классификатор используется в непомеченной части корпуса для извлечения большего обучающего набора, в который включены только самые надежные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся учебном корпусе, пока не будет израсходован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полу-контролируемые методы используют большие количества непомеченных корпусов для предоставления информации о совместном появлении, которая дополняет помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.

Кроме того, неоднозначное слово на одном языке часто переводится на разные слова на другом языке в зависимости от смысла слова. Выровненные по словам двуязычные корпуса использовались [ кем? ], чтобы вывести межъязыковые смысловые различия, своего рода полууправляемую систему.

Неконтролируемые методы [ править ]

Обучение без учителя - самая большая проблема для исследователей WSD. Основное предположение состоит в том, что похожие смыслы возникают в аналогичных контекстах, и, таким образом, смыслы могут быть вызваны из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста [26], задача, называемая индукцией смысла слова или различением. Затем новые вхождения слова можно классифицировать по ближайшим индуцированным группам / смыслам. Производительность была ниже, чем у других методов, описанных выше, но сравнения затруднены, так как индуцированные чувства должны отображаться в известном словаре значений слов. Если сопоставление с набором словарных смыслов нежелательно, оценки на основе кластера(включая измерения энтропии и чистоты). В качестве альтернативы, методы индукции смысла слова можно протестировать и сравнить в приложении. Например, было показано, что индукция смысла слов улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов. [27] [28] Есть надежда, что обучение без учителя преодолеет узкое место в получении знаний, поскольку оно не зависит от ручных усилий.

Представление слов с учетом их контекста через плотные векторы фиксированного размера ( вложения слов ) стало одним из самых фундаментальных блоков в нескольких системах НЛП. [29] [30] [31] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все же можно использовать для улучшения WSD. [32] В дополнение к методам встраивания слов, лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помочь неконтролируемым системам отображать слова и их значения в качестве словарей. Некоторые методы, сочетающие лексические базы данных и вложения слов, представлены в AutoExtend [33][34] и наиболее подходящую смысловую аннотацию (MSSA). [35] В AutoExtend, [34] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения слов. AutoExtend использует структуру графа для сопоставления слов (например, текста) иобъектов,не являющихся словами (например, синсеты в WordNet ), как узлов, а отношения между узлами как ребер. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе расчета смещения [29], а второй определяет сходство между двумя узлами. В MSSA [35]Неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном контекстном окне для выбора наиболее подходящего смысла слова с помощью предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид определения смысла каждого слова путем усреднения векторов слов его слов в глоссах WordNet.(т. е. краткое определение блеска и один или несколько примеров использования) с использованием предварительно обученной модели встраивания слов. Эти центроиды позже используются для выбора смысла слова с наибольшим сходством целевого слова с его непосредственно соседними соседями (т. Е. Словами-предшественниками и словами-преемниками). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать вложения смысла слова для итеративного повторения процесса устранения неоднозначности.

Другие подходы [ править ]

Другие подходы могут различаться по своим методам:

  • Устранение неоднозначности на основе операционной семантики логики по умолчанию . [36]
  • Устранение неоднозначности на основе предметной области; [37] [38]
  • Выявление доминирующих смыслов слова; [39] [40] [41]
  • WSD с использованием кросс-языковых доказательств. [42] [43]
  • Решение WSD в независимом от языка NLU Джона Болла, сочетающем в себе теорию патома [1] и RRG (грамматику ролей и справочников)
  • Вывод типа в грамматиках на основе ограничений [44]

Другие языки [ править ]

  • Хинди  : Отсутствие лексических ресурсов на хинди препятствует работе контролируемых моделей WSD, в то время как неконтролируемые модели страдают из-за обширной морфологии. Возможное решение этой проблемы - создание модели WSD с помощью параллельных корпусов . [45] [46] Создание хинди WordNet проложило путь для нескольких контролируемых методов, которые, как было доказано, обеспечивают более высокую точность при устранении неоднозначности существительных. [47]

Местные препятствия и резюме [ править ]

Узкое место в получении знаний, возможно, является основным препятствием на пути решения проблемы WSD. Неконтролируемые методы полагаются на знания о смыслах слов, которые очень редко сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого смысла слова, а это требование пока возможно [ когда? ] будет встречаться только для нескольких слов в целях тестирования, как это делается в упражнениях Senseval .

Одна из самых многообещающих тенденций в исследованиях WSD - использование крупнейшего когда-либо доступного корпуса , всемирной паутины , для автоматического получения лексической информации. [48] WSD традиционно понимается как технология разработки промежуточного языка, которая может улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые машины реализуют простые и надежные методы IR, которые могут успешно добывать в Интернете информацию для использования в WSD. Историческая нехватка данных для обучения спровоцировала появление некоторых новых алгоритмов и методов, как описано в разделе « Автоматическое получение корпусов с метками смысла» .

Источники внешних знаний [ править ]

Знания - фундаментальный компонент WSD. Источники знаний предоставляют данные, которые необходимы для связи смыслов со словами. Они могут варьироваться от корпусов текстов, как без надписей, так и с аннотациями слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. Д. Их можно [49] [50] классифицировать следующим образом:

Структурированный:

  1. Машиночитаемые словари (MRD)
  2. Онтологии
  3. Тезаурусы

Неструктурированный:

  1. Ресурсы для коллокации
  2. Другие ресурсы (например, список частот слов , stoplists , метки доменных , [51] и т.д.)
  3. Корпуса : необработанные корпуса и корпуса с аннотациями смыслов.

Оценка [ править ]

Сравнивать и оценивать разные системы WSD чрезвычайно сложно из-за различных наборов тестов, аналитических обзоров и используемых ресурсов знаний. До организации конкретных кампаний по оценке большинство систем оценивались на внутренних, часто небольших, наборах данных . Чтобы проверить свой алгоритм, разработчики должны тратить свое время на аннотирование всех вхождений слов. И сравнение методов даже в одном и том же корпусе недопустимо, если есть разные смысловые инвентаризации.

Для определения общих наборов данных и процедур оценки были организованы общественные оценочные кампании. Senseval (теперь переименованный в SemEval ) - это международный конкурс по устранению неоднозначности, который проводится каждые три года с 1998 года: Senseval-1 (1998 г.), Senseval-2 (2001 г.), Senseval-3 (2004 г.) и его преемник SemEval (2007 г.) . Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестовых систем, проведение сравнительной оценки систем WSD в нескольких видах задач, включая полнословные и лексические образцы WSD для разных языков, а в последнее время , новые задачи, такие как разметка семантических ролей ,глянец WSD , лексическая замена и т. д. Системы, представленные для оценки на эти соревнования, обычно объединяют различные методы и часто сочетают контролируемые и основанные на знаниях методы (особенно для предотвращения плохой работы при отсутствии примеров обучения).

В последние годы 2007-2012 гг. Количество вариантов оценочных задач WSD увеличилось, и критерий оценки WSD резко изменился в зависимости от варианта оценочной задачи WSD. Ниже перечислены различные задачи WSD:

Варианты дизайна задачи [ править ]

По мере развития технологий задачи устранения неоднозначности слов (WSD) становятся все более разнообразными в разных направлениях исследований и для большего количества языков:

  • Классические одноязычные оценочные задачи WSD используют WordNet в качестве инвентарного списка чувств и в значительной степени основаны на контролируемой / частично контролируемой классификации с аннотированными корпусами вручную: [52]
    • Классический английский WSD использует Princeton WordNet, поскольку он учитывает инвентаризацию, а входные данные первичной классификации обычно основываются на корпусе SemCor .
    • Классический WSD для других языков использует соответствующие WordNet в качестве смысловых инвентаризаций и смысловых аннотированных корпусов, помеченных на их соответствующих языках. Часто исследователи также обращаются к корпусу SemCor и выравнивают битексты с английским в качестве исходного языка.
  • Задача кросс-языковой оценки WSD также сосредоточена на WSD на 2 или более языках одновременно. В отличие от многоязычных задач WSD, вместо того, чтобы предоставлять вручную смысловые примеры для каждого смысла многозначного существительного, смысловой инвентарь строится на основе параллельных корпусов, например корпуса Europarl. [53]
  • Задачи оценки многоязычного WSD были сосредоточены на WSD на 2 или более языках одновременно с использованием их соответствующих WordNets в качестве своего смыслового инвентаря или BabelNet в качестве многоязычного чувственного реестра. [54] Он развился из задач оценки Translation WSD, которые выполнялись в Senseval-2. Популярным подходом является выполнение одноязычного WSD с последующим отображением смыслов исходного языка в соответствующие переводы целевого слова. [55]
  • Слово Чувство Индукция и задача Disambiguation представляет собой комбинированная оценку задачи , где инвентаризация смысла первые индуцированная из фиксированных обучающей выборки данных, состоящие из многозначных слов и фраз , что они произошли в, то WSD выполняется на другой наборе данных испытаний . [56]

Программное обеспечение [ править ]

  • Babelfy, [57] единая современная система для многоязычного устранения неоднозначности слов и связывания сущностей.
  • BabelNet API, [58] Java API для многоязычного устранения неоднозначности Word Sense на 6 различных языках с использованием семантической сети BabelNet.
  • WordNet :: SenseRelate, [59] проект, который включает бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и устранения неоднозначности с точки зрения лексических образцов.
  • UKB: Graph Base WSD, [60] набор программ для устранения неоднозначности слов и лексического сходства / родства на основе графов с использованием уже существующей базы лексических знаний [61]
  • pyWSD, [62] реализации Python технологий устранения неоднозначности Word Sense (WSD)

См. Также [ править ]

  • Двусмысленность
  • Контролируемый естественный язык
  • Связывание сущностей
  • Алгоритм Леска
  • Лексическая подстановка
  • Пометка части речи
  • Полисемия
  • Семевал
  • Семантическая унификация
  • Судебное толкование
  • Устранение неоднозначности границы предложения
  • Синтаксическая двусмысленность
  • Смысл слова
  • Индукция смысла слова

Заметки [ править ]

  1. ^ Уивер 1949 .
  2. Bar-Hillel 1964 , pp. 174–179.
  3. ^ a b c Navigli, Litkowski & Hargraves 2007 , стр. 30–35.
  4. ^ а б Прадхан и др. 2007 , стр. 87–92.
  5. ^ Yarowsky 1992 , стр. 454-460.
  6. ^ Михалча 2007 .
  7. ^ А. Моро, А. Раганато, Р. Навильи. Связывание сущностей соответствует устранению неоднозначности в словах: унифицированный подход. Архивировано 8 августа 2014 г. в Wayback Machine . Труды Ассоциации компьютерной лингвистики (TACL), 2, стр. 231-244, 2014.
  8. ^ Fellbaum 1997 .
  9. Снайдер и Палмер 2004 , стр. 41–43.
  10. ^ Navigli 2006 , стр. 105-112.
  11. ^ Сноу и др. 2007 , с. 1005–1014.
  12. ^ Ленат .
  13. Палмер, Бабко-Малая и Данг 2004 , стр. 49–56.
  14. ^ Эдмондс 2000 .
  15. ^ Kilgarrif 1997 , стр. 91-113.
  16. ^ McCarthy & Navigli 2009 , стр. 139-159.
  17. ^ Lenat & Гуа 1989 .
  18. ^ Уилкс, Slator & Guthrie 1996 .
  19. ^ Lesk 1986 , стр. 24-26.
  20. ^ Diamantini, C .; Мирколи, А .; Potena, D .; Сторти, Э. (01.06.2015). «Устранение семантической неоднозначности в системе обнаружения социальной информации». Международная конференция по технологиям и системам для совместной работы (CTS) 2015: 326–333. DOI : 10.1109 / CTS.2015.7210442 . ISBN 978-1-4673-7647-1. S2CID  13260353 .
  21. ^ Navigli & Velardi 2005 , стр. 1063-1074.
  22. ^ Agirre, Лопес де Lacalle и Soroa 2009 , стр. 1501-1506.
  23. ^ Navigli & Lapata 2010 , стр. 678-692.
  24. ^ Ponzetto & Navigli 2010 , стр. 1522-1531.
  25. ^ Yarowsky 1995 , стр. 189-196.
  26. ^ Schütze 1998 , стр. 97-123.
  27. ^ Navigli & Crisafulli 2010 .
  28. ^ DiMarco & Navigli 2013 .
  29. ^ a b Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (16 января 2013 г.). «Эффективное оценивание представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
  30. ^ Пеннингтон, Джеффри; Сохер, Ричард; Мэннинг, Кристофер (2014). «Перчатка: глобальные векторы для представления слов». Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1532–1543. DOI : 10.3115 / v1 / d14-1162 . S2CID 1957433 . 
  31. ^ Бояновский, Петр; Могила, Эдуард; Жулен, Арман; Миколов, Томас (декабрь 2017 г.). «Обогащение векторов слов подсловной информацией» . Труды Ассоциации компьютерной лингвистики . 5 : 135–146. DOI : 10,1162 / tacl_a_00051 . ISSN 2307-387X . 
  32. ^ Якобаччи, Игнасио; Пилехвар, Мохаммад Тахер; Навильи, Роберто (2016). «Вложения для устранения неоднозначности слов: оценочное исследование» . Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 897–907. DOI : 10.18653 / v1 / P16-1085 .
  33. ^ Роте, Саша; Шютце, Хинрих (2015). «AutoExtend: расширение вложений Word до вложений для синсетов и лексем». Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1793–1803. arXiv : 1507.01127 . Bibcode : 2015arXiv150701127R . DOI : 10.3115 / v1 / p15-1173 . S2CID 15687295 . 
  34. ^ а б Роте, Саша; Шютце, Хинрих (сентябрь 2017 г.). «AutoExtend: объединение вложений слов с семантическими ресурсами» . Компьютерная лингвистика . 43 (3): 593–617. DOI : 10,1162 / coli_a_00294 . ISSN 0891-2017 . 
  35. ^ a b Руас, Терри; Гроски, Уильям; Айзава, Акико (декабрь 2019 г.). «Многосмысловые вложения посредством процесса устранения неоднозначности слов». Экспертные системы с приложениями . 136 : 288–303. DOI : 10.1016 / j.eswa.2019.06.026 . ЛВП : 2027,42 / 145475 .
  36. Галицкий, Борис (2005). «Устранение неоднозначности с помощью правил по умолчанию при ответах на сложные вопросы». Международный журнал по инструментам искусственного интеллекта . 14 : 157–175. DOI : 10.1142 / S0218213005002041 .
  37. ^ Gliozzo, Magnini & Strapparava 2004 , стр. 380-387.
  38. ^ Buitelaar et al. 2006. С. 275–298.
  39. ^ Маккарти и др. 2007 , стр. 553–590.
  40. ^ Mohammad & Херст 2006 , стр. 121-128.
  41. ^ Lapata & Keller 2007 , стр. 348-355.
  42. ^ Ide, Erjavec & Tufis 2002 , стр. 54-60.
  43. Перейти ↑ Chan & Ng 2005 , pp. 1037–1042.
  44. ^ Стюарт М. Shieber (1992). Грамматические формализмы на основе ограничений: синтаксический анализ и вывод типов для естественных и компьютерных языков . MIT Press. ISBN 978-0-262-19324-5.
  45. ^ Баттачария Индраджит, Лиз Джтоор и Йошуа Бенджио. Неконтролируемое устранение неоднозначности с использованием двуязычных вероятностных моделей . Труды 42-го ежегодного собрания ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2004.
  46. ^ Диаб, Мона, и Филипп Резник. Неконтролируемый метод разметки смысла слов с использованием параллельных корпусов . Труды 40-го ежегодного собрания ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2002.
  47. ^ Маниш Синх, Махеш Кумар, Prabhakar Панда, Лакшми Kashyap и Pushpak Бхаттачариа. Значение слова на хинди . На Международном симпозиуме по машинному переводу, обработке естественного языка и системам поддержки перевода, Дели, Индия, 2004 г.
  48. ^ Kilgarrif & Grefenstette 2003 , стр. 333-347.
  49. ^ Litkowski 2005 , стр. 753-761.
  50. ^ Agirre & Stevenson 2006 , стр. 217-251.
  51. ^ Magnini & Cavaglià 2000 , стр. 1413-1418.
  52. ^ Люсия Специя, Мария дас Грасас Вольпе Нуньес, Габриэла Каштелу Бранко Рибейро и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . В семинаре EACL-2006 по осмыслению смысла: объединение психолингвистики и компьютерной лингвистики, страницы 33–40, Тренто, Италия, апрель 2006 г.
  53. ^ Els Лефевр и Veronique Хост. СемЭваль-2010, задание 3: межъязыковое устранение смысловой неоднозначности . Материалы семинара по семантическим оценкам: последние достижения и будущие направления. 4–4 июня 2009 г., Боулдер, Колорадо
  54. ^ Р. Навильи, Д.А. Юргенс, Д. Ваннелла. СемЭваль-2013 Задание 12: Устранение многоязычной словесной неоднозначности . Proc. 7-го Международного семинара по семантической оценке (SemEval) на Второй совместной конференции по лексической и вычислительной семантике (* SEM 2013), Атланта, США, 14-15 июня 2013 г., стр. 222-231.
  55. ^ Люсия Специя, Мария дас Грасас Вольпе Нуньес, Габриэла Каштелу Бранко Рибейро и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . В семинаре EACL-2006 по осмыслению смысла: объединение психолингвистики и компьютерной лингвистики, страницы 33–40, Тренто, Италия, апрель 2006 г.
  56. ^ Eneko Agirre и Aitor Soroa. Семевал-2007, задание 02: оценка систем индукции и распознавания смысла слов . Материалы 4-го Международного семинара по семантическим оценкам, стр.7-12, 23-24 июня 2007 г., Прага, Чешская Республика
  57. ^ "Babelfy" . Babelfy . Проверено 22 марта 2018 .
  58. ^ "BabelNet API" . Babelnet.org . Проверено 22 марта 2018 .
  59. ^ "WordNet :: SenseRelate" . Senserelate.sourceforge.net . Проверено 22 марта 2018 .
  60. ^ "UKB: Graph Base WSD" . Ixa2.si.ehu.es . Проверено 22 марта 2018 .
  61. ^ «Лексическая база знаний (LKB)» . Moin.delph-in.net. 2018-02-05 . Проверено 22 марта 2018 .
  62. ^ alvations. "pyWSD" . Github.com . Проверено 22 марта 2018 .

Процитированные работы [ править ]

  • Agirre, E .; Lopez de Lacalle, A .; Сороа, А. (2009). «WSD, основанный на знаниях, в определенных доменах: более эффективный, чем общий контролируемый WSD» (PDF) . Proc. IJCAI .
  • Agirre, E .; М. Стивенсон. 2006. Источники знаний для WSD. В устранении неоднозначности смысла слов: алгоритмы и приложения , Э. Агирре и П. Эдмондс, ред. Спрингер, Нью-Йорк, штат Нью-Йорк.
  • Бар-Гилель Ю. (1964). Язык и информация . Ридинг, Массачусетс: Эддисон-Уэсли.
  • Buitelaar, P .; Б. Маньини, К. Страппарава и П. Фоссен. 2006. Доменно-ориентированный WSD. В устранении неоднозначности смысла слов: алгоритмы и приложения, Э. Агирре и П. Эдмондс, ред. Спрингер, Нью-Йорк, штат Нью-Йорк.
  • Чан, Ю.С.; HT Ng. 2005. Расширение масштабов устранения неоднозначности слов с помощью параллельных текстов. В материалах 20-й Национальной конференции по искусственному интеллекту (AAAI, Питтсбург, Пенсильвания).
  • Эдмондс, П. 2000. Разработка задачи для СЕНСЕВАЛ-2 . Tech. Примечание. Брайтонский университет, Брайтон. Великобритания
  • Феллбаум, Кристиана (1997). «Анализ рукописного задания». Proc. семинара ANLP-97 по тегированию текста с помощью лексической семантики: почему, что и как? Вашингтон, округ Колумбия, США .
  • Gliozzo, A .; Б. Маньини и К. Страппарава. 2004. Неконтролируемая оценка релевантности предметной области для разрешения смысловой неоднозначности . В материалах конференции 2004 г. по эмпирическим методам обработки естественного языка (EMNLP, Барселона, Испания).
  • Ide, N .; Т. Эрджавец, Д. Туфис. 2002. Смысловая дискриминация с параллельными телами . В материалах семинара ACL по устранению неоднозначности слов: недавние успехи и будущие направления (Филадельфия, Пенсильвания).
  • Килгаррифф, А. 1997. Я не верю в смысл слов . Comput. Человек. 31 (2), стр. 91–113.
  • Килгаррифф, А .; Г. Грефенштетте. 2003. Введение в специальный выпуск в Интернете в виде корпуса . Компьютерная лингвистика 29 (3), стр. 333–347.
  • Килгаррифф, Адам; Джозеф Розенцвейг, English Senseval: отчет и результаты, май – июнь 2000 г., Брайтонский университет
  • Лапата, М .; и Ф. Келлер. 2007. Информационно-поисковый подход к смысловому ранжированию . В материалах конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики (HLT-NAACL, Рочестер, штат Нью-Йорк).
  • Ленат Д. Компьютеры против здравого смысла . Проверено 10 декабря 2008 . (GoogleTachTalks на YouTube)
  • Ленат, Д .; RV Guha. 1989. Построение больших систем, основанных на знаниях, Аддисон-Уэсли.
  • Леск; М. 1986. Автоматическое устранение неоднозначности с использованием машиночитаемых словарей: Как отличить сосновую шишку от рожка мороженого . В Proc. SIGDOC-86: 5-я Международная конференция по системной документации, Торонто, Канада.
  • Литковски, KC 2005. Вычислительные лексиконы и словари. В Энциклопедии языка и лингвистики (2-е изд.), KR Brown, Ed. Издательство Elsevier, Оксфорд, Великобритания
  • Magnini, B; Г. Кавалья. 2000. Интеграция кодов предметных полей в WordNet. В материалах 2-й конференции по языковым ресурсам и оценке (LREC, Афины, Греция).
  • McCarthy, D .; Р. Кёлинг, Дж. Уидс, Дж. Кэрролл. 2007. Неконтролируемое приобретение преобладающих значений слов . Компьютерная лингвистика 33 (4): 553–590.
  • McCarthy, D .; Р. Навильи. 2009. Задача лексической замены английского языка, языковые ресурсы и оценка, 43 (2), Springer.
  • Михалча, Р. 2007. Использование Википедии для автоматического устранения неоднозначности слов . В Proc. Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL 2007), Рочестер, апрель 2007 г.
  • Мохаммад, S; Г. Херст. 2006. Определение доминирования смысла слова с помощью тезауруса . В материалах 11-й конференции Европейского отделения Ассоциации компьютерной лингвистики (EACL, Тренто, Италия).
  • Навильи, Р. 2006. Значимая кластеризация смыслов помогает повысить эффективность устранения неоднозначности смысла слов . Proc. 44-го ежегодного собрания Ассоциации компьютерной лингвистики совместно с 21-й Международной конференцией по компьютерной лингвистике (COLING-ACL 2006), Сидней, Австралия.
  • Navigli, R .; А. Ди Марко. Кластеризация и диверсификация результатов веб-поиска с помощью Word Sense Induction на основе графиков . Компьютерная лингвистика, 39 (3), MIT Press, 2013, стр. 709–754.
  • Navigli, R .; Г. Крисафулли. Побуждение к пониманию слов для улучшения кластеризации результатов веб-поиска . Proc. конференции 2010 г. по эмпирическим методам обработки естественного языка (EMNLP 2010), MIT Stata Center, Массачусетс, США.
  • Navigli, R .; М. Лапата. Экспериментальное исследование связности графов для устранения неоднозначности словесного смысла без учителя . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32 (4), IEEE Press, 2010.
  • Navigli, R .; К. Литковски, О. Харгрейвс. 2007. СемЭвал-2007 Задание 07: Общее задание по английскому языку . Proc. семинара Semeval-2007 ( SemEval ) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL 2007), Прага, Чешская Республика.
  • Навильи, Р.; П. Веларди. 2005. Структурные семантические взаимосвязи: основанный на знаниях подход к устранению смысловой неоднозначности . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27 (7).
  • Palmer, M .; О. Бабко-Малая и Х.Т. Данг. 2004. Различная степень детализации для разных приложений . В материалах 2-го семинара по масштабируемым системам понимания естественного языка в HLT / NAACL (Бостон, Массачусетс).
  • Понцетто, СП; Р. Навильи. Богатый знаниями Word Sense Disambiguation, конкурирующий с контролируемыми системами . В Proc. 48-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL), 2010 г.
  • Pradhan, S .; Э. Лопер, Д. Длигач, М. Палмер. 2007. SemEval-2007 Задание 17: Лексический образец английского языка, SRL и все слова . Proc. семинара Semeval-2007 (SEMEVAL) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL 2007), Прага, Чешская Республика.
  • Шютце, Х. 1998. Автоматическое распознавание смысла слова . Компьютерная лингвистика, 24 (1): 97–123.
  • Snow, R .; С. Пракаш, Д. Джурафски, AY Ng. 2007. Обучение объединению смыслов слов , материалы совместной конференции 2007 года по эмпирическим методам обработки естественного языка и компьютерному изучению естественного языка (EMNLP-CoNLL).
  • Снайдер, Б .; М. Палмер. 2004. Задание на все слова на английском языке . В Proc. 3-го Международного семинара по оценке систем семантического анализа текста (Senseval-3), Барселона, Испания.
  • Уивер, Уоррен (1949). «Перевод» (PDF) . В Локке, WN; Бут, AD (ред.). Машинный перевод языков: четырнадцать эссе . Кембридж, Массачусетс: MIT Press.
  • Wilks, Y .; Б. Слатор, Л. Гатри. 1996. Электрические слова: словари, компьютеры и значения. Кембридж, Массачусетс: MIT Press.
  • Яровски, Д. Устранение смысловой неоднозначности с использованием статистических моделей категорий Роже, обученных на больших корпусах . В Proc. 14-й конференции по компьютерной лингвистике (COLING), 1992.
  • Яровский, Д. 1995. Неконтролируемое устранение неоднозначности, соперничающее с контролируемыми методами . В Proc. 33-го ежегодного собрания Ассоциации компьютерной лингвистики.

Внешние ссылки и рекомендуемая литература [ править ]

  • Специальный выпуск компьютерной лингвистики по устранению неоднозначности слов (1998)
  • Упражнения по оценке смысловой неоднозначности . Де-факто стандартные тесты для систем WSD.
  • Роберто Навильи. Устранение неоднозначности слов: обзор , ACM Computing Surveys, 41 (2), 2009, стр. 1–69. Актуальное состояние дел в этой области.
  • Устранение неоднозначности в словах, как это определено в Scholarpedia
  • Устранение неоднозначности в словах : современное состояние (PDF) Всесторонний обзор Проф. Нэнси Ид и Жан Веронис (1998).
  • Учебное пособие по устранению неоднозначности в словах, написанное Радой Михалча и Тедом Педерсеном (2005).
  • Ну, ну, ну ... Устранение неоднозначности в словах с помощью Google n-Grams , Крейг Трим (2013).
  • Устранение неоднозначности смысла слов: алгоритмы и приложения , под редакцией Энеко Агирре и Филиппа Эдмондса (2006), Springer. Охватывает всю область с главами, написанными ведущими исследователями. www.wsdbook.org сайт книги
  • Бар-Гилель, Иегошуа. 1964. Язык и информация. Нью-Йорк: Аддисон-Уэсли.
  • Эдмондс, Филип и Адам Килгаррифф. 2002. Введение в специальный выпуск по оценке систем устранения многозначности слов. Журнал инженерии естественного языка, 8 (4): 279-291.
  • Эдмондс, Филипп. 2005. Лексическая неоднозначность. Энциклопедия языка и лингвистики Elsevier, 2-е изд., Изд. Кейт Браун, 607-23. Оксфорд: Эльзевир.
  • Иде, Нэнси и Жан Веронис. 1998. Значение слова: современное состояние. Компьютерная лингвистика, 24 (1): 1-40.
  • Джурафски, Дэниел и Джеймс Х. Мартин. 2000. Обработка речи и языка. Нью-Джерси, США: Прентис Холл.
  • Литковски, KC 2005. Вычислительные лексиконы и словари. В Энциклопедии языка и лингвистики (2-е изд.), KR Brown, Ed. Издательство Elsevier, Оксфорд, Великобритания, 753–761.
  • Мэннинг, Кристофер Д. и Хинрих Шютце. 1999. Основы статистической обработки естественного языка. Кембридж, Массачусетс: MIT Press. Основы статистической обработки естественного языка
  • Михалча, Рада. 2007. Значение слова. Энциклопедия машинного обучения. Springer-Verlag.
  • Резник, Филипп и Давид Яровски. 2000. Различительные системы и различающие смыслы: новые методы оценки для устранения неоднозначности смысла слов, Natural Language Engineering, 5 (2): 113-133. [2]
  • Яровский, Дэвид. 2001. Значение слова. Справочник по обработке естественного языка, под ред. Дейл и др., 629-654. Нью-Йорк: Марсель Деккер.