Распределительная семантика

Распределительная семантика - это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и категоризации семантических сходств между лингвистическими элементами на основе их распределительных свойств в больших выборках языковых данных. Основную идею распределительной семантики можно суммировать в так называемой распределительной гипотезе: языковые элементы с похожими распределениями имеют схожие значения.

Распределительная гипотеза

Гипотеза распределения в лингвистике основана на семантической теории использования языка, то есть слова, которые используются и встречаются в одних и тех же контекстах, имеют тенденцию иметь сходные значения. ^[1]

Основная идея о том, что «слово характеризует компанию, которую оно составляет», была популяризирована Фертом в 1950-х годах. ^[2]

Гипотеза распределения является основой статистической семантики . Хотя гипотеза распределения возникла в лингвистике ^{[3], в} настоящее время она привлекает внимание в когнитивной науке, особенно в отношении контекста употребления слов. ^[4]

В последние годы гипотеза распределения послужила основой для теории обобщения на основе сходства в изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они редко встречались раньше, путем обобщения их использования на основе распределений похожих слов. . ^[5]^[6]

Гипотеза распределения предполагает, что чем больше семантически схожи два слова, тем более схожими по распределению они будут в свою очередь, и, следовательно, тем больше они будут иметь тенденцию встречаться в схожих лингвистических контекстах.

Верность этого предположения имеет серьезные последствия как для проблемы разреженности данных в компьютерном моделировании ^{[7], так} и для вопроса о том, как дети могут так быстро изучать язык при относительно ограниченном количестве вводимых данных (это также известно как проблема нехватки данных). бедность раздражителя ).

Распределенно-семантическое моделирование в векторных пространствах

Распределительная семантика способствует использованию линейной алгебры в качестве вычислительного инструмента и представительной основы. Основной подход состоит в сборе распределительной информации в многомерных векторах и определении распределительного / семантического сходства с точки зрения векторного сходства. ^[8] Различные виды сходства могут быть извлечены в зависимости от того, какой тип распределительной информации используется для сбора векторов: тематические сходства могут быть извлечены путем заполнения векторов информацией, в каких текстовых областях встречаются языковые элементы; Парадигматические сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими языковыми элементами эти элементы сочетаются. Обратите внимание, что последний тип векторов также может использоваться для извлечения синтагматических сходств, глядя на отдельные компоненты вектора.

Основная идея корреляции между распределительным и семантическим сходством может быть реализована множеством различных способов. Существует множество вычислительных моделей, реализующих распределительную семантику, включая скрытый семантический анализ (LSA), ^[9]^[10] гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей, ^[11] случайное индексирование , семантическое сворачивание. ^[12] и различные варианты тематической модели . ^[13]

Семантические модели распределения различаются, прежде всего, по следующим параметрам:

Тип контекста (текстовые области или лингвистические элементы)
Контекстное окно (размер, расширение и т. Д.)
Частотное взвешивание (например, энтропия , точечная взаимная информация , ^[14] и т. Д.)
Уменьшение размерности (например, случайная индексация , разложение по сингулярным числам и т. Д.)
Мера подобия (например, косинусное сходство , расстояние Минковского и т. Д.)

Семантические модели распределения, использующие лингвистические элементы в качестве контекста, также называются пространством слов или моделями векторного пространства . ^[15]^[16]

За пределами лексической семантики

В то время как распределительная семантика обычно применялась к лексическим элементам - словам и многословным терминам - со значительным успехом, не в последнюю очередь благодаря ее применимости в качестве входного уровня для нейронных моделей глубокого обучения, лексическая семантика, то есть значение слов, будет только несут часть семантики всего высказывания. Значение предложения, например, «Тигры любят кроликов». , можно лишь частично понять, изучив значение трех лексических единиц, из которых он состоит. Распределительную семантику можно напрямую расширить, чтобы охватить более крупные лингвистические элементы, такие как конструкции, с элементами, не являющимися экземплярами, и без них, но некоторые из базовых допущений модели необходимо несколько скорректировать. Строительная грамматика и ее формулировка лексико-синтаксического континуума предлагают один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования. ^[17]

Композиционно-распределительные семантические модели расширяют распределительные семантические модели явными семантическими функциями, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционную модель для характеристики семантики целых фраз или предложений. Эта работа была первоначально предложена Стивеном Кларком , Бобом Коке и Мехрнушем Садрзаде из Оксфордского университета в их статье 2008 года «Композиционно-распределительная модель смысла». ^[18] Были исследованы различные подходы к композиции, включая нейронные модели, и они обсуждаются на авторитетных семинарах, таких как SemEval . ^[19]

Приложения

Распределительные семантические модели успешно применяются для решения следующих задач:

обнаружение семантического сходства между словами и многословными выражениями;
кластеризация слов на основе семантического сходства;
автоматическое создание тезаурусов и двуязычных словарей;
устранение неоднозначности смысла слова ;
расширение поисковых запросов с помощью синонимов и ассоциаций;
определение темы документа;
кластеризация документов для поиска информации ;
интеллектуальный анализ данных и распознавание именованных сущностей ;
создание семантических карт разных предметных областей;
перефразирование ;
сентиментальный анализ ;
моделирование селекционных предпочтений слов.

Программное обеспечение

S-пространство
Семантические векторы
Gensim
ДИСКО Строитель
Индра

Смотрите также

Концептуальное пространство
Совместное появление
Распределительно-реляционная база данных
Gensim
Фраза
Случайная индексация
Вложение предложения
Статистическая семантика
Word2vec
Встраивание слов

Люди

Скотт Дирвестер
Сьюзан Дюмэ
Дж. Р. Ферт
Джордж Фурнас
Зеллиг Харрис
Ричард Хиршман
Томас Ландауэр
Магнус Сальгрен
Хинрих Шютце

Внешние ссылки

Зеллиг С. Харрис

[1] Харрис 1954

[2] Ферт 1957

[3] Sahlgren 2008

[4] Макдональд и Рамскар 2001

[5] Gleitman 2002

[6] Ярлетт 2008

[7] Wishart, Ryder и Prokopis Prokopidis. «Эксперименты по тематическому моделированию на эллинистических корпусах». В материалах семинара по корпусам в цифровых гуманитарных науках 17 , 39–47. Блумингтон, IN: Материалы семинара CEUR, 2017 г., Интернет: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf .

[8] Ригер 1991

[9] Deerwester et al. 1990 г.

[10] Ландауэр, Томас К .; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор . 104 (2): 211–240. DOI : 10.1037 / 0033-295x.104.2.211 . ISSN 1939-1471 .

[11] Падо и Лапата 2007

[12] Де Соуза Уэббер, Франциско (2015). «Теория семантического сворачивания и ее применение в семантическом снятии отпечатков пальцев». arXiv : 1511.08855 [ cs.AI ].

[13] Джордан, Майкл I .; Ng, Andrew Y .; Блей, Дэвид М. (2003). «Скрытое размещение Дирихле» . Журнал исследований в области машинного обучения . 3 (янв): 993–1022. ISSN 1533-7928 .

[14] Церковь, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Труды 27-го ежегодного собрания ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. DOI : 10.3115 / 981623.981633 .

[15] Шютце 1993

[16] Sahlgren 2006

[17] Карлгрен, Юсси ; Канерва, Пентти (2019). «Многомерные распределенные семантические пространства для высказываний» . Инженерия естественного языка . 25 (4): 503–517. arXiv : 2104.00424 . DOI : 10.1017 / S1351324919000226 . Проверено 13 апреля 2020 .

[18] Кларк, Стивен; Кок, Боб; Садрзаде, Мехрнош (2008). «Композиционная модель распределения значения» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.

[19] «СемЭваль-2014, Задание 1» .

[1]