Распределительная семантика - это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и категоризации семантических сходств между лингвистическими элементами на основе их распределительных свойств в больших выборках языковых данных. Основную идею распределительной семантики можно суммировать в так называемой распределительной гипотезе: языковые элементы с похожими распределениями имеют схожие значения.
Распределительная гипотеза
Гипотеза распределения в лингвистике основана на семантической теории использования языка, то есть слова, которые используются и встречаются в одних и тех же контекстах, имеют тенденцию иметь сходные значения. [1]
Основная идея о том, что «слово характеризует компанию, которую оно составляет», была популяризирована Фертом в 1950-х годах. [2]
Гипотеза распределения является основой статистической семантики . Хотя гипотеза распределения возникла в лингвистике [3], в настоящее время она привлекает внимание в когнитивной науке, особенно в отношении контекста употребления слов. [4]
В последние годы гипотеза распределения послужила основой для теории обобщения на основе сходства в изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они редко встречались раньше, путем обобщения их использования на основе распределений похожих слов. . [5] [6]
Гипотеза распределения предполагает, что чем больше семантически схожи два слова, тем более схожими по распределению они будут в свою очередь, и, следовательно, тем больше они будут иметь тенденцию встречаться в схожих лингвистических контекстах.
Верность этого предположения имеет серьезные последствия как для проблемы разреженности данных в компьютерном моделировании [7], так и для вопроса о том, как дети могут так быстро изучать язык при относительно ограниченном количестве вводимых данных (это также известно как проблема нехватки данных). бедность раздражителя ).
Распределенно-семантическое моделирование в векторных пространствах
Распределительная семантика способствует использованию линейной алгебры в качестве вычислительного инструмента и представительной основы. Основной подход состоит в сборе распределительной информации в многомерных векторах и определении распределительного / семантического сходства с точки зрения векторного сходства. [8] Различные виды сходства могут быть извлечены в зависимости от того, какой тип распределительной информации используется для сбора векторов: тематические сходства могут быть извлечены путем заполнения векторов информацией, в каких текстовых областях встречаются языковые элементы; Парадигматические сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими языковыми элементами эти элементы сочетаются. Обратите внимание, что последний тип векторов также может использоваться для извлечения синтагматических сходств, глядя на отдельные компоненты вектора.
Основная идея корреляции между распределительным и семантическим сходством может быть реализована множеством различных способов. Существует множество вычислительных моделей, реализующих распределительную семантику, включая скрытый семантический анализ (LSA), [9] [10] гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей, [11] случайное индексирование , семантическое сворачивание. [12] и различные варианты тематической модели . [13]
Семантические модели распределения различаются, прежде всего, по следующим параметрам:
- Тип контекста (текстовые области или лингвистические элементы)
- Контекстное окно (размер, расширение и т. Д.)
- Частотное взвешивание (например, энтропия , точечная взаимная информация , [14] и т. Д.)
- Уменьшение размерности (например, случайная индексация , разложение по сингулярным числам и т. Д.)
- Мера подобия (например, косинусное сходство , расстояние Минковского и т. Д.)
Семантические модели распределения, использующие лингвистические элементы в качестве контекста, также называются пространством слов или моделями векторного пространства . [15] [16]
За пределами лексической семантики
В то время как распределительная семантика обычно применялась к лексическим элементам - словам и многословным терминам - со значительным успехом, не в последнюю очередь благодаря ее применимости в качестве входного уровня для нейронных моделей глубокого обучения, лексическая семантика, то есть значение слов, будет только несут часть семантики всего высказывания. Значение предложения, например, «Тигры любят кроликов». , можно лишь частично понять, изучив значение трех лексических единиц, из которых он состоит. Распределительную семантику можно напрямую расширить, чтобы охватить более крупные лингвистические элементы, такие как конструкции, с элементами, не являющимися экземплярами, и без них, но некоторые из базовых допущений модели необходимо несколько скорректировать. Строительная грамматика и ее формулировка лексико-синтаксического континуума предлагают один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования. [17]
Композиционно-распределительные семантические модели расширяют распределительные семантические модели явными семантическими функциями, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционную модель для характеристики семантики целых фраз или предложений. Эта работа была первоначально предложена Стивеном Кларком , Бобом Коке и Мехрнушем Садрзаде из Оксфордского университета в их статье 2008 года «Композиционно-распределительная модель смысла». [18] Были исследованы различные подходы к композиции, включая нейронные модели, и они обсуждаются на авторитетных семинарах, таких как SemEval . [19]
Приложения
Распределительные семантические модели успешно применяются для решения следующих задач:
- обнаружение семантического сходства между словами и многословными выражениями;
- кластеризация слов на основе семантического сходства;
- автоматическое создание тезаурусов и двуязычных словарей;
- устранение неоднозначности смысла слова ;
- расширение поисковых запросов с помощью синонимов и ассоциаций;
- определение темы документа;
- кластеризация документов для поиска информации ;
- интеллектуальный анализ данных и распознавание именованных сущностей ;
- создание семантических карт разных предметных областей;
- перефразирование ;
- сентиментальный анализ ;
- моделирование селекционных предпочтений слов.
Программное обеспечение
- S-пространство
- Семантические векторы
- Gensim
- ДИСКО Строитель
- Индра
Смотрите также
- Концептуальное пространство
- Совместное появление
- Распределительно-реляционная база данных
- Gensim
- Фраза
- Случайная индексация
- Вложение предложения
- Статистическая семантика
- Word2vec
- Встраивание слов
Люди
- Скотт Дирвестер
- Сьюзан Дюмэ
- Дж. Р. Ферт
- Джордж Фурнас
- Зеллиг Харрис
- Ричард Хиршман
- Томас Ландауэр
- Магнус Сальгрен
- Хинрих Шютце
Рекомендации
- ^ Харрис 1954
- ^ Ферт 1957
- ^ Sahlgren 2008
- ^ Макдональд и Рамскар 2001
- ^ Gleitman 2002
- ^ Ярлетт 2008
- ^ Wishart, Ryder и Prokopis Prokopidis. «Эксперименты по тематическому моделированию на эллинистических корпусах». В материалах семинара по корпусам в цифровых гуманитарных науках 17 , 39–47. Блумингтон, IN: Материалы семинара CEUR, 2017 г., Интернет: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf .
- ^ Ригер 1991
- ^ Deerwester et al. 1990 г.
- ^ Ландауэр, Томас К .; Дюмэ, Сьюзан Т. (1997). «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний». Психологический обзор . 104 (2): 211–240. DOI : 10.1037 / 0033-295x.104.2.211 . ISSN 1939-1471 .
- ^ Падо и Лапата 2007
- ^ Де Соуза Уэббер, Франциско (2015). «Теория семантического сворачивания и ее применение в семантическом снятии отпечатков пальцев». arXiv : 1511.08855 [ cs.AI ].
- ^ Джордан, Майкл I .; Ng, Andrew Y .; Блей, Дэвид М. (2003). «Скрытое размещение Дирихле» . Журнал исследований в области машинного обучения . 3 (янв): 993–1022. ISSN 1533-7928 .
- ^ Церковь, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография» . Труды 27-го ежегодного собрания ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. DOI : 10.3115 / 981623.981633 .
- ^ Шютце 1993
- ^ Sahlgren 2006
- ^ Карлгрен, Юсси ; Канерва, Пентти (2019). «Многомерные распределенные семантические пространства для высказываний» . Инженерия естественного языка . 25 (4): 503–517. arXiv : 2104.00424 . DOI : 10.1017 / S1351324919000226 . Проверено 13 апреля 2020 .
- ^ Кларк, Стивен; Кок, Боб; Садрзаде, Мехрнош (2008). «Композиционная модель распределения значения» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.
- ^ «СемЭваль-2014, Задание 1» .
Источники
- Харрис, З. (1954). «Распределительная структура». Слово . 10 (23): 146–162. DOI : 10.1080 / 00437956.1954.11659520 .
- Ферт, младший (1957). «Краткий обзор лингвистической теории 1930-1955 годов». Исследования по лингвистическому анализу : 1–32. Перепечатано в FR Palmer, изд. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 . Лондон: Лонгман.
- Сальгрен, Магнус (2008). «Распределительная гипотеза» (PDF) . Rivista di Linguistica . 20 (1): 33–53.
- Макдоналдс.; Рамскар, М. (2001). «Проверка распределительной гипотезы: влияние контекста на суждения о семантическом сходстве». Материалы 23-й ежегодной конференции Общества когнитивных наук . С. 611–616. CiteSeerX 10.1.1.104.7535 .
- Глейтман, Лила Р. (2002). «Глаголы перья стекаются вместе II». Наследие Зеллига Харриса . Актуальные проблемы лингвистической теории. 1 . С. 209–229. DOI : 10.1075 / cilt.228.17gle . ISBN 978-90-272-4736-0.
- Ярлетт, Д. (2008). Изучение языков через обобщение на основе сходства (PDF) (докторская диссертация). Стэндфордский Университет. Архивировано из оригинального (PDF) 19 апреля 2014 года . Проверено 12 июля 2012 .
- Ригер, Бургхард Б. (1991). О распределенных представлениях в семантике слов (PDF) (Отчет). ИКСИ Беркли 12-1991. CiteSeerX 10.1.1.37.7976 .
- Дирвестер, Скотт; Dumais, Susan T .; Фурнас, Джордж У .; Ландауэр, Томас К .; Харшман, Ричард (1990). «Индексирование с помощью скрытого семантического анализа» (PDF) . Журнал Американского общества информационных наук . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . DOI : 10.1002 / (SICI) 1097-4571 (199009) 41: 6 <391 :: AID-ASI1> 3.0.CO; 2-9 . Архивировано из оригинального (PDF) 17 июля 2012 года.
- Падо, Себастьян; Лапата, Мирелла (2007). «Зависимое построение моделей семантического пространства». Компьютерная лингвистика . 33 (2): 161–199. DOI : 10,1162 / coli.2007.33.2.161 . S2CID 7747235 .
- Шютце, Хинрих (1993). «Пространство слова». Достижения в системах обработки нейронной информации 5 . С. 895–902. CiteSeerX 10.1.1.41.8856 .
- Сальгрен, Магнус (2006). Модель пространства слов (PDF) (кандидатская диссертация). Стокгольмский университет.
- Томас Ландауэр; Сьюзен Т. Дюмэ. «Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знаний» . Проверено 2 июля 2007 .
- Кевин Лунд; Курт Берджесс; Рут Энн Эчли (1995). Семантический и ассоциативный прайминг в многомерном семантическом пространстве . Когнитивная наука. С. 660–665.
- Кевин Лунд; Курт Берджесс (1996). «Производство многомерных семантических пространств из лексического совпадения» . Методы исследования поведения, приборы и компьютеры . 28 (2): 203–208. DOI : 10.3758 / bf03204766 .
Внешние ссылки
- Зеллиг С. Харрис