Распределительная семантика

Распределительная семантика - это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и категоризации семантических сходств между лингвистическими элементами на основе их распределительных свойств в больших выборках языковых данных. Основную идею распределительной семантики можно подытожить в так называемой распределительной гипотезе: языковые элементы с похожими распределениями имеют схожие значения.

Гипотеза распределения [ править ]

Гипотеза распределения в лингвистике основана на семантической теории использования языка, то есть слова, которые используются и встречаются в одних и тех же контекстах, имеют тенденцию иметь сходные значения. ^[1]

Основная идея о том, что «слово характеризует компанию, которую оно составляет», была популяризирована Фертом в 1950-х годах. ^[2]

Гипотеза распределения является основой статистической семантики . Хотя гипотеза распределения возникла в лингвистике ^{[3], в} настоящее время она привлекает внимание в когнитивной науке, особенно в отношении контекста употребления слов. ^[4]

В последние годы гипотеза распределения послужила основой для теории обобщения на основе сходства в изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они редко встречались раньше, путем обобщения их использования на основе распределений похожих слов. . ^[5]^[6]

Гипотеза распределения предполагает, что чем больше семантически схожи два слова, тем более схожими по распределению они будут в свою очередь, и, следовательно, тем больше они будут иметь тенденцию встречаться в схожих лингвистических контекстах.

Верность этого предположения имеет серьезные последствия как для проблемы разреженности данных в компьютерном моделировании ^{[7], так} и для вопроса о том, как дети могут так быстро изучать язык при относительно ограниченном количестве вводимых данных (это также известно как проблема нехватки данных). бедность раздражителя ).

Распределительное семантическое моделирование в векторных пространствах [ править ]

Распределительная семантика способствует использованию линейной алгебры в качестве вычислительного инструмента и представительной основы. Основной подход состоит в сборе распределительной информации в многомерных векторах и определении распределительного / семантического сходства с точки зрения векторного сходства. ^[8] Различные виды сходства могут быть извлечены в зависимости от того, какой тип распределительной информации используется для сбора векторов: тематические сходства могут быть извлечены путем заполнения векторов информацией, в каких текстовых областях встречаются языковые элементы; Парадигматические сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими языковыми элементами эти элементы сочетаются. Обратите внимание, что последний тип векторов также может использоваться для извлечениясинтагматическое сходство, если посмотреть на отдельные компоненты вектора.

Основная идея корреляции между распределительным и семантическим сходством может быть реализована множеством различных способов. Существует множество вычислительных моделей, реализующих распределительную семантику, включая скрытый семантический анализ (LSA), ^[9]^[10] гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей, ^[11] случайное индексирование , семантическое сворачивание. ^[12] и различные варианты тематической модели . ^[13]

Семантические модели распределения различаются, прежде всего, по следующим параметрам:

Тип контекста (текстовые области или лингвистические элементы)
Контекстное окно (размер, расширение и т. Д.)
Частотное взвешивание (например, энтропия , точечная взаимная информация , ^[14] и т. Д.)
Уменьшение размерности (например, случайная индексация , разложение по сингулярным числам и т. Д.)
Мера подобия (например, косинусное сходство , расстояние Минковского и т. Д.)

Семантические модели распределения, использующие лингвистические элементы в качестве контекста, также называются пространством слов или моделями векторного пространства . ^[15]^[16]

За пределами лексической семантики [ править ]

В то время как распределенная семантика обычно применялась к лексическим элементам - словам и многословным терминам - со значительным успехом, не в последнюю очередь благодаря ее применимости в качестве входного уровня для нейронных моделей глубокого обучения, лексическая семантика, то есть значение слов, будет только несут часть семантики всего высказывания. Значение предложения, например, «Тигры любят кроликов». , можно лишь частично понять, изучив значение трех лексических единиц, из которых он состоит. Распределительную семантику можно напрямую расширить для охвата более крупных лингвистических элементов, таких как конструкции, с элементами, не являющимися экземплярами, и без них, но некоторые из базовых допущений модели необходимо несколько скорректировать. Строительная грамматикаи его формулировка лексико-синтаксического континуума предлагает один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования. ^[17]

Композиционно-распределительные семантические модели расширяют распределительные семантические модели явными семантическими функциями, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционную модель для характеристики семантики целых фраз или предложений. Эта работа была первоначально предложена Стивеном Кларком , Бобом Коке и Мехрнушем Садрзаде из Оксфордского университета в их статье 2008 года «Композиционно-распределительная модель смысла». ^[18] Были исследованы различные подходы к композиции, включая нейронные модели, и они обсуждаются на авторитетных семинарах, таких как SemEval . ^[19]

Приложения [ править ]

Распределительные семантические модели успешно применяются для решения следующих задач:

обнаружение семантического сходства между словами и многословными выражениями;
кластеризация слов на основе семантического сходства;
автоматическое создание тезаурусов и двуязычных словарей;
устранение неоднозначности смысла слова ;
расширение поисковых запросов с помощью синонимов и ассоциаций;
определение темы документа;
кластеризация документов для поиска информации ;
интеллектуальный анализ данных и распознавание именованных сущностей ;
создание семантических карт разных предметных областей;
перефразирование ;
сентиментальный анализ ;
моделирование селекционных предпочтений слов.

Программное обеспечение [ править ]

S-пространство
Семантические векторы
Gensim
ДИСКО Строитель
Индра

См. Также [ править ]

Концептуальное пространство
Совместное появление
Распределительно-реляционная база данных
Gensim
Фраза
Случайная индексация
Вложение предложения
Статистическая семантика
Word2vec
Встраивание слов

Люди [ править ]

Скотт Дирвестер
Сьюзан Дюмэ
Дж. Р. Ферт
Джордж Фурнас
Зеллиг Харрис
Ричард Хиршман
Томас Ландауэр
Магнус Сальгрен
Хинрих Шютце

Ссылки [ править ]

^ Харрис 1954
^ Ферт 1957
^ Sahlgren 2008
^ Макдональд и Рамскар 2001
^ Gleitman 2002
^ Ярлетт 2008
^ Wishart, Ryder и Prokopis Prokopidis. «Эксперименты по тематическому моделированию на эллинистических корпусах». В материалах семинара по корпусам в цифровых гуманитарных науках 17 , 39–47. Блумингтон, IN: Материалы семинара CEUR, 2017 г., Интернет: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf .
^ Ригер 1991
^ Deerwester et al. 1990 г.
^ Ландауэр, Томас К .; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор . 104 (2): 211–240. DOI : 10.1037 / 0033-295x.104.2.211 . ISSN 1939-1471 .
^ Падо и Лапата 2007
^ Де Соуза Уэббер, Франциско (2015). «Теория семантического сворачивания и ее применение в семантическом снятии отпечатков пальцев». arXiv : 1511.08855 [ cs.AI ].
^ Джордан, Майкл I .; Ng, Andrew Y .; Блей, Дэвид М. (2003). «Скрытое размещение Дирихле» . Журнал исследований в области машинного обучения . 3 (янв): 993–1022. ISSN 1533-7928 .
^ Церковь, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Труды 27-го ежегодного собрания ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. DOI : 10.3115 / 981623.981633 .
^ Шютце 1993
^ Sahlgren 2006
^ Карлгрен, Юсси ; Канерва, Пентти (2019). «Многомерные распределенные семантические пространства для высказываний» . Инженерия естественного языка . 25 (4): 503–517. arXiv : 2104.00424 . DOI : 10.1017 / S1351324919000226 . Проверено 13 апреля 2020 .
^ Кларк, Стивен; Кок, Боб; Садрзаде, Мехрнош (2008). «Композиционная модель распределения значения» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.
^ «СемЭвал-2014, Задание 1» .

Источники [ править ]

Харрис, З. (1954). «Распределительная структура». Слово . 10 (23): 146–162. DOI : 10.1080 / 00437956.1954.11659520 .
Ферт, младший (1957). «Краткий обзор лингвистической теории 1930-1955 годов». Исследования по лингвистическому анализу : 1–32.Перепечатано в FR Palmer, ed. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 . Лондон: Лонгман.
Сальгрен, Магнус (2008). «Распределительная гипотеза» (PDF) . Rivista di Linguistica . 20 (1): 33–53.
Макдоналдс.; Рамскар, М. (2001). «Проверка распределительной гипотезы: влияние контекста на суждения о семантическом сходстве». Материалы 23-й ежегодной конференции Общества когнитивных наук . С. 611–616. CiteSeerX 10.1.1.104.7535 .
Глейтман, Лила Р. (2002). «Глаголы перья стекаются вместе II». Наследие Зеллига Харриса . Актуальные проблемы лингвистической теории. 1 . С. 209–229. DOI : 10.1075 / cilt.228.17gle . ISBN 978-90-272-4736-0.
Ярлетт, Д. (2008). Изучение языков через обобщение на основе сходства (PDF) (докторская диссертация). Стэндфордский Университет. Архивировано из оригинального (PDF) 19 апреля 2014 года . Проверено 12 июля 2012 .
Ригер, Бургхард Б. (1991). О распределенных представлениях в семантике слов (PDF) (Отчет). ИКСИ Беркли 12-1991. CiteSeerX 10.1.1.37.7976 .
Дирвестер, Скотт; Dumais, Susan T .; Фурнас, Джордж У .; Ландауэр, Томас К .; Харшман, Ричард (1990). «Индексирование с помощью скрытого семантического анализа» (PDF) . Журнал Американского общества информационных наук . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . DOI : 10.1002 / (SICI) 1097-4571 (199009) 41: 6 <391 :: AID-ASI1> 3.0.CO; 2-9 . Архивировано из оригинального (PDF) 17 июля 2012 года.
Падо, Себастьян; Лапата, Мирелла (2007). «Зависимое построение моделей семантического пространства». Компьютерная лингвистика . 33 (2): 161–199. DOI : 10,1162 / coli.2007.33.2.161 . S2CID 7747235 .
Шютце, Хинрих (1993). «Пространство слова». Достижения в системах обработки нейронной информации 5 . С. 895–902. CiteSeerX 10.1.1.41.8856 .
Сальгрен, Магнус (2006). Модель пространства слов (PDF) (кандидатская диссертация). Стокгольмский университет.
Томас Ландауэр; Сьюзен Т. Дюмэ. «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Проверено 2 июля 2007 .
Кевин Лунд; Курт Берджесс; Рут Энн Эчли (1995). Семантический и ассоциативный прайминг в многомерном семантическом пространстве . Когнитивная наука. С. 660–665.
Кевин Лунд; Курт Берджесс (1996). «Производство многомерных семантических пространств из лексического совпадения» . Методы исследования поведения, приборы и компьютеры . 28 (2): 203–208. DOI : 10.3758 / bf03204766 .

Внешние ссылки [ править ]

Зеллиг С. Харрис

[1] Харрис 1954

[2] Ферт 1957

[3] Sahlgren 2008

[4] Макдональд и Рамскар 2001

[5] Gleitman 2002

[6] Ярлетт 2008

[7] Wishart, Ryder и Prokopis Prokopidis. «Эксперименты по тематическому моделированию на эллинистических корпусах». В материалах семинара по корпусам в цифровых гуманитарных науках 17 , 39–47. Блумингтон, IN: Материалы семинара CEUR, 2017 г., Интернет: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf .

[8] Ригер 1991

[9] Deerwester et al. 1990 г.

[10] Ландауэр, Томас К .; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор . 104 (2): 211–240. DOI : 10.1037 / 0033-295x.104.2.211 . ISSN 1939-1471 .

[11] Падо и Лапата 2007

[12] Де Соуза Уэббер, Франциско (2015). «Теория семантического сворачивания и ее применение в семантическом снятии отпечатков пальцев». arXiv : 1511.08855 [ cs.AI ].

[13] Джордан, Майкл I .; Ng, Andrew Y .; Блей, Дэвид М. (2003). «Скрытое размещение Дирихле» . Журнал исследований в области машинного обучения . 3 (янв): 993–1022. ISSN 1533-7928 .

[14] Церковь, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Труды 27-го ежегодного собрания ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. DOI : 10.3115 / 981623.981633 .

[15] Шютце 1993

[16] Sahlgren 2006

[17] Карлгрен, Юсси ; Канерва, Пентти (2019). «Многомерные распределенные семантические пространства для высказываний» . Инженерия естественного языка . 25 (4): 503–517. arXiv : 2104.00424 . DOI : 10.1017 / S1351324919000226 . Проверено 13 апреля 2020 .

[18] Кларк, Стивен; Кок, Боб; Садрзаде, Мехрнош (2008). «Композиционная модель распределения значения» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.

[19] «СемЭвал-2014, Задание 1» .

[1]