Встраивание слов


В обработке естественного языка (NLP) встраивание слов — это термин, используемый для представления слов для анализа текста, обычно в форме вектора с действительным знаком, который кодирует значение слова таким образом, что слова, которые находятся ближе в векторе space, как ожидается, будут схожими по смыслу. [1] Встраивание слов можно получить с помощью набора методов языкового моделирования и изучения признаков , в которых слова или фразы из словаря сопоставляются с векторами действительных чисел . Концептуально это включает математическое вложение из пространства со многими измерениями на слово в непрерывное векторное пространство .с гораздо меньшей размерностью.

Методы создания этого отображения включают нейронные сети , [2] уменьшение размерности матрицы совпадения слов , [3] [4] [5] вероятностные модели, [6] метод объяснимой базы знаний, [7] и явное представление в терминах контекста, в котором появляются слова. [8]

Было показано, что встраивание слов и фраз при использовании в качестве базового входного представления повышает производительность в задачах НЛП, таких как синтаксический анализ [9] и анализ настроений . [10]

В лингвистике вложения слов обсуждались в области исследований дистрибутивной семантики . Он направлен на количественную оценку и классификацию семантических сходств между лингвистическими единицами на основе их свойств распределения в больших выборках языковых данных. Основная идея о том, что «слово характеризуется компанией, которую оно составляет», была популяризирована Джоном Рупертом Фертом . [11]

Понятие семантического пространства с лексическими единицами (словами или терминами, состоящими из нескольких слов), представленными в виде векторов или вложений, основано на вычислительных задачах сбора характеристик распределения и их использования для практического применения для измерения сходства между словами, фразами или целыми документами. Первое поколение моделей семантического пространства — это модель векторного пространства для информационного поиска. [12] [13] [14] Такие модели векторного пространства для слов и их данных о распределении, реализованные в их простейшей форме, приводят к очень разреженному векторному пространству высокой размерности (ср . Проклятие размерности ). Уменьшение количества измерений с помощью линейных алгебраических методов, таких как разложение по сингулярным числам .затем привело к введению латентного семантического анализа в конце 1980-х годов и подхода случайной индексации для сбора контекстов совпадения слов. [15] [16] [17] [18] [19] В 2000 г. Bengio et al. представил в серии статей «Нейронно-вероятностные языковые модели» для уменьшения высокой размерности представлений слов в контекстах путем «изучения распределенного представления слов». [20] [21]Вложения слов бывают двух разных стилей: в одном слова выражаются как векторы совместно встречающихся слов, а в другом слова выражаются как векторы лингвистических контекстов, в которых слова встречаются; эти разные стили изучаются в (Lavelli et al., 2004). [22] Ровейс и Сол опубликовали в журнале Science , как использовать « локально линейное вложение » (LLE) для обнаружения представлений многомерных структур данных. [23] Большинство новых методов встраивания слов примерно после 2005 года полагаются на архитектуру нейронной сети, а не на более вероятностные и алгебраические модели, начиная с некоторых основополагающих работ Йошуа Бенжио и его коллег. [24] [25]

Этот подход был принят многими исследовательскими группами после того, как примерно в 2010 году были достигнуты успехи в теоретической работе над качеством векторов и скоростью обучения модели, а аппаратные усовершенствования позволили с выгодой изучить более широкое пространство параметров. В 2013 году команда Google под руководством Томаса Миколова создала word2vec , набор инструментов для встраивания слов, который может обучать модели векторного пространства быстрее, чем предыдущие подходы. Подход word2vec широко использовался в экспериментах и ​​сыграл важную роль в повышении интереса к встраиванию слов как к технологии, переместив направление исследований из специализированных исследований в более широкие эксперименты и, в конечном итоге, проложив путь для практического применения. [26]