Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В обработке естественного языка (NLP) встраивание слов - это термин, используемый для представления слов для анализа текста, обычно в форме вектора с действительным знаком, который кодирует значение слова таким образом, что слова, которые находятся ближе к вектору ожидается, что пространство будет аналогичным по смыслу. [1] вложение Слова может быть получено с помощью набора моделирования языка и функции обучения техники , где слово или фразы из словаря сопоставляются с векторами из действительных чисел . Концептуально это включает математическое вложение из пространства с множеством измерений на слово в непрерывное векторное пространство. с гораздо меньшим размером.

Методы создания этого отображения включают нейронные сети , [2] уменьшение размерности в матрице совместной встречаемости слов , [3] [4] [5] вероятностные модели, [6] метод объяснимой базы знаний [7] и явное представление в терминах контекста, в котором появляются слова. [8]

Было показано, что встраивание слов и фраз при использовании в качестве базового входного представления повышает производительность в задачах НЛП, таких как синтаксический синтаксический анализ [9] и анализ тональности . [10]

Развитие и история подхода [ править ]

В лингвистике вложения слов обсуждались в области исследований распределительной семантики . Он направлен на количественную оценку и категоризацию семантических сходств между лингвистическими элементами на основе их свойств распределения в больших выборках языковых данных. Основная идея о том, что «слово характеризует компания, которую оно составляет», была популяризирована Фертом . [11]

Понятие семантического пространства с лексическими элементами (словами или многословными терминами), представленными в виде векторов или вложений, основано на вычислительных задачах захвата характеристик распределения и их использования для практического применения для измерения сходства между словами, фразами или целыми документами. Первое поколение моделей семантического пространства - это модель векторного пространства для поиска информации. [12] [13] [14] Такие модели векторного пространства для слов и их распределительных данных, реализованные в их простейшей форме, приводят к очень разреженному векторному пространству высокой размерности (см. Проклятие размерности ). Уменьшение количества измерений с помощью методов линейной алгебры, таких как разложение по сингулярным числамзатем привел к внедрению скрытого семантического анализа в конце 1980-х и подхода случайного индексирования для сбора контекстов совпадения слов. [15] [16] [17] [18] [19] В 2000 году Bengio et al. предоставил в серии статей «Нейронные вероятностные языковые модели» для уменьшения высокой размерности представлений слов в контекстах путем «изучения распределенного представления для слов». [20] [21]Вложения слов бывают двух разных стилей, в одном из которых слова выражаются как векторы совпадающих слов, а в другом слова выражаются как векторы лингвистических контекстов, в которых эти слова встречаются; эти разные стили изучаются в (Lavelli et al., 2004). [22] Роуис и Сол опубликовали в Science, как использовать « локально линейное встраивание » (LLE) для открытия представлений многомерных структур данных. [23] Большинство новых методов встраивания слов примерно после 2005 года полагаются на архитектуру нейронной сети, а не на более вероятностные и алгебраические модели, начиная с некоторых основополагающих работ Йошуа Бенжио и его коллег. [24] [25]

Этот подход был принят многими исследовательскими группами после того, как примерно в 2010 году были достигнуты успехи в теоретической работе по качеству векторов и скорости обучения модели, а достижения в области аппаратного обеспечения позволили с пользой изучить более широкое пространство параметров. В 2013 году команда Google под руководством Томаса Миколова создала word2vec , набор инструментов для встраивания слов, который может обучать модели векторного пространства быстрее, чем предыдущие подходы. Подход word2vec широко использовался в экспериментах и ​​способствовал повышению интереса к встраиванию слов как технологии, перемещению исследовательского направления из специализированных исследований в более широкие эксперименты и, в конечном итоге, проложил путь для практического применения. [26]

Ограничения [ править ]

Одним из основных ограничений встраивания слов ( моделей векторного пространства слов в целом) является то, что слова с несколькими значениями объединяются в одно представление (один вектор в семантическом пространстве, хотя это уже не так с момента разработки BERT, которая может генерировать контекстно-значимые вложения). Другими словами, многозначность и омонимия не рассматриваются должным образом. Например, в предложении «В клубе я попробовал вчера было здорово!», Это не ясно , если этот термин клуб связан с чувством разрядности в бутерброде клуба , бейсбольного клуба , клуб , гольф - клуб , или любое другое чувство , что клубдолжно быть. Необходимость приспосабливать несколько значений к слову в разных векторах (многосмысловые вложения) является мотивацией для нескольких вкладов в НЛП, чтобы разделить односмысловые вложения на многосмысловые. [27] [28]

Большинство подходов, которые производят многозначные вложения, можно разделить на две основные категории по их словесному представлению, т. Е. Неконтролируемые и основанные на знаниях. [29] На основе пропуска граммы word2vec , Multi-Sense Skip-Gram (MSSG) [30] выполняет распознавание смысла слов и встраивание одновременно, сокращая время обучения, предполагая при этом определенное количество смыслов для каждого слова. В непараметрической мультисмысловой пропускной грамме (NP-MSSG) это число может варьироваться в зависимости от каждого слова. Объединение предшествующих знаний лексических баз данных (например, WordNet , ConceptNet , BabelNet ), встраивания слов и устранения неоднозначности слов, наиболее подходящей смысловой аннотации (MSSA) [31]маркирует смыслы слова с помощью неконтролируемого и основанного на знаниях подхода с учетом контекста слова в заранее определенном скользящем окне. Как только слова устранены, их можно использовать в стандартной технике встраивания слов, так что создаются многосмысленные вложения. Архитектура MSSA позволяет периодически выполнять процесс устранения неоднозначности и аннотации в самоулучшающейся манере.

Известно, что использование мультисмысловых вложений улучшает производительность в нескольких задачах НЛП, таких как тегирование части речи , идентификация семантических отношений, семантическая взаимосвязь , распознавание именованных сущностей и анализ тональности. [32] [33]

Для биологических последовательностей: BioVectors [ править ]

Вложения Слова для n- грамм в биологических последовательностях (например , ДНК, РНК и белки) для биоинформатики приложений были предложены Аскарями и Mofrad. [34] Названные биовекторы (BioVec) для обозначения биологических последовательностей в целом с белковыми векторами (ProtVec) для белков (аминокислотные последовательности) и ген-векторами (GeneVec) для последовательностей генов, это представление может широко использоваться в применения глубокого обучения в протеомике и геномике . Результаты, представленные Asgari и Mofrad [34], предполагают, что BioVectors могут характеризовать биологические последовательности с точки зрения биохимических и биофизических интерпретаций лежащих в основе паттернов.

Векторы мысли [ править ]

Векторы мыслей - это расширение встраивания слов для целых предложений или даже документов. Некоторые исследователи надеются, что это может улучшить качество машинного перевода . [35]

Программное обеспечение [ править ]

Программное обеспечение для подготовки и использования вложений слова включает в себя Томас Mikolov в Word2vec , Стэнфордский университет перчаточного , [36] GN-перчатка, [37] Flair вложения, [32] AllenNLP в Elmo , [38] БЕРТ , [39] FastText , Gensim , [40] Индра [41] и Deeplearning4j . Анализ главных компонентов (PCA) и T-распределенное стохастическое соседнее вложение (t-SNE) используются для уменьшения размерности векторных пространств слов и визуализации вложений слов и кластеров.. [42]

Примеры применения [ править ]

Например, fastText также используется для расчета вложений слов для текстовых корпусов в Sketch Engine , доступных в Интернете. [43]

См. Также [ править ]

  • Коричневая кластеризация
  • Распределительно-реляционная база данных

Ссылки [ править ]

  1. ^ Джурафски, Даниэль; Х. Джеймс, Мартин (2000). Обработка речи и языка: введение в обработку естественного языка, вычислительную лингвистику и распознавание речи (PDF) . Река Аппер Сэдл, штат Нью-Джерси: Prentice Hall. ISBN 978-0-13-095069-7.
  2. ^ Mikolov, Томас; Суцкевер, Илья; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Распределенные представления слов и фраз и их композиционность». arXiv : 1310.4546 [ cs.CL ].
  3. ^ Лебре, Реми; Коллобер, Ронан (2013). "Word Emdeddings через Hellinger PCA". Конференция европейского отделения ассоциации компьютерной лингвистики (EACL) . 2014 . arXiv : 1312,5542 . Bibcode : 2013arXiv1312.5542L .
  4. ^ Леви, Омер; Гольдберг, Йоав (2014). Встраивание нейронных слов как неявная матричная факторизация (PDF) . НИПС.
  5. ^ Ли, Йитань; Сюй, Линли (2015). Пересмотр встраивания слов: изучение нового представления и перспектива явной матричной факторизации (PDF) . Int'l J. Conf. по искусственному интеллекту (IJCAI).
  6. ^ Globerson, Amir (2007). «Евклидово вложение данных совместной встречаемости» (PDF) . Журнал исследований в области машинного обучения .
  7. ^ Куреши, М. Атиф; Грин, Дерек (2018-06-04). «EVE: объяснимая техника встраивания на основе векторов с использованием Википедии». Журнал интеллектуальных информационных систем . 53 : 137–165. arXiv : 1702.06891 . DOI : 10.1007 / s10844-018-0511-х . ISSN 0925-9902 . S2CID 10656055 .  
  8. ^ Леви, Омер; Гольдберг, Йоав (2014). Лингвистические закономерности в разреженных и явных представлениях слов (PDF) . CoNLL. С. 171–180.
  9. ^ Сохер, Ричард; Бауэр, Джон; Мэннинг, Кристофер; Нг, Эндрю (2013). Парсинг с помощью композиционных векторных грамматик (PDF) . Proc. ACL Conf.
  10. ^ Сохер, Ричард; Перелыгин Алексей; Ву, Жан; Чуанг, Джейсон; Мэннинг, Крис; Нг, Эндрю; Поттс, Крис (2013). Рекурсивные глубинные модели семантической композиционности по банку дерева настроений (PDF) . ЕМНЛП.
  11. Перейти ↑ Firth, JR (1957). «Краткий обзор лингвистической теории 1930–1955 годов». Исследования по лингвистическому анализу : 1–32.Перепечатано в FR Palmer, ed. (1968). Избранные статьи Дж. Р. Ферта 1952–1959 гг . Лондон: Лонгман.
  12. ^ Солтон, Джерард (1962). «Некоторые эксперименты по созданию словесных и документальных ассоциаций» . Proceeding AFIPS '62 (Fall) Proceedings of the 4–6 декабря 1962, Fall Joint Computer Conference : 234–250. DOI : 10.1145 / 1461518.1461544 . S2CID 9937095 . Проверено 18 октября 2020 года . 
  13. ^ Солтон, Джерард; Вонг, А; Ян, CS (1975). «Модель векторного пространства для автоматического индексирования». Сообщения Ассоциации вычислительной техники (CACM) . 18 (11): 613–620. DOI : 10.1145 / 361219.361220 . hdl : 1813/6057 . S2CID 6473756 . 
  14. ^ Дубин, Дэвид (2004). «Самая влиятельная газета, которую никогда не писал Джерард Солтон» . Проверено 18 октября 2020 года .
  15. ^ Сальгрен, Магнус. «Краткая история встраивания слов» .
  16. ^ Канерва, Пентти, Кристоферсон, Ян и Холст, Андерс (2000): случайное индексирование текстовых выборок для скрытого семантического анализа , Труды 22-й ежегодной конференции Общества когнитивных наук, стр. 1036. Махва, Нью-Джерси: Эрлбаум, 2000.
  17. ^ Карлгрен, Юсси; Сальгрен, Магнус (2001). Уэсака, Ёсинори; Канерва, Пентти; Асох, Хидеки (ред.). «От слов к пониманию». Основы реального мира интеллекта . Публикации CSLI: 294–308.
  18. ^ Сальгрен, Магнус (2005) Введение в случайное индексирование , материалы семинара по методам и приложениям семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания
  19. ^ Сальгрен, Магнус, Холст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов , В трудах 30-й ежегодной конференции Общества когнитивной науки: 1300–1305.
  20. ^ Бенжио, Йошуа ; Дюшарм, Реджан; Винсент, Паскаль; Жовен, Кристиан (2003). «Нейронно-вероятностная языковая модель» (PDF) . Журнал исследований в области машинного обучения . 3 : 1137–1155.
  21. ^ Бенжио, Йошуа; Швенк, Хольгер; Сенекаль, Жан-Себастьен; Морен, Фредерик; Говен, Жан-Люк (2006). Нейронно-вероятностная языковая модель . Исследования в области нечеткости и мягких вычислений . 194 . С. 137–186. DOI : 10.1007 / 3-540-33486-6_6 . ISBN 978-3-540-30609-2.
  22. ^ Лавелли, Альберто; Себастьяни, Фабрицио; Заноли, Роберто (2004). Распределительные представления терминов: экспериментальное сравнение . 13-я Международная конференция ACM по управлению информацией и знаниями. С. 615–624. DOI : 10.1145 / 1031171.1031284 .
  23. ^ Roweis, Сэм Т .; Сол, Лоуренс К. (2000). «Снижение нелинейной размерности локально линейным вложением». Наука . 290 (5500): 2323–6. Bibcode : 2000Sci ... 290.2323R . CiteSeerX 10.1.1.111.3313 . DOI : 10.1126 / science.290.5500.2323 . PMID 11125150 .  
  24. ^ Морен, Фредрик; Бенхио, Йошуа (2005). «Иерархическая вероятностная языковая модель нейронной сети». AIstats . 5 : 246–252.
  25. ^ Мних, Андрей; Хинтон, Джеффри (2009). «Масштабируемая иерархическая распределенная языковая модель» . Достижения в системах обработки нейронной информации 21 (NIPS 2008) . Curran Associates, Inc .: 1081–1088.
  26. ^ word2vec
  27. ^ Райзингер, Джозеф; Муни, Раймонд Дж. (2010). Мультипрототипные векторно-пространственные модели значения слов . Технологии человеческого языка: Ежегодная конференция североамериканского отделения Ассоциации компьютерной лингвистики в 2010 году. Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 109–117. ISBN 978-1-932432-65-7. Проверено 25 октября 2019 года .
  28. ^ Хуанг, Эрик. (2012). Улучшение представления слов с помощью глобального контекста и множественных прототипов слов . OCLC 857900050 . 
  29. ^ Камачо-Колладос, Хосе; Пилехвар, Мохаммад Тахер (2018). От слова к смысловым вложениям: обзор векторных представлений смысла . arXiv : 1805.04032 . Bibcode : 2018arXiv180504032C .
  30. ^ Neelakantan, Арвинд; Шанкар, Дживан; Пассос, Александр; Маккаллум, Эндрю (2014). «Эффективное непараметрическое оценивание множественных вложений на слово в векторном пространстве». Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1059–1069. arXiv : 1504.06654 . DOI : 10.3115 / v1 / d14-1113 . S2CID 15251438 . 
  31. ^ Руас, Терри; Гроски, Уильям; Аидзава, Акико (01.12.2019). «Многосмысловые вложения посредством процесса устранения неоднозначности слов». Экспертные системы с приложениями . 136 : 288–303. DOI : 10.1016 / j.eswa.2019.06.026 . ЛВП : 2027,42 / 145475 . ISSN 0957-4174 . 
  32. ^ a b Акбик, Алан; Блайт, Дункан; Воллграф, Роланд (2018). «Вложения контекстных строк для маркировки последовательностей» . Материалы 27-й Международной конференции по компьютерной лингвистике . Санта-Фе, Нью-Мексико, США: Ассоциация компьютерной лингвистики: 1638–1649.
  33. ^ Ли, Цзивэй; Джурафски, Дэн (2015). «Улучшают ли мультисмысловые вложения понимание естественного языка?». Труды конференции 2015 года по эмпирическим методам обработки естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1722–1732. arXiv : 1506.01070 . DOI : 10.18653 / v1 / d15-1200 . S2CID 6222768 . 
  34. ^ а б Асгари, Эхсанеддин; Мофрад, Мохаммад РК (2015). «Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики» . PLOS ONE . 10 (11): e0141287. arXiv : 1503.05140 . Bibcode : 2015PLoSO..1041287A . DOI : 10.1371 / journal.pone.0141287 . PMC 4640716 . PMID 26555596 .  
  35. ^ Кирос, Райан; Чжу, Юкун; Салахутдинов Руслан; Земель, Ричард С .; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015). "векторы пропуска мысли". arXiv : 1506.06726 [ cs.CL ].
  36. ^ "Перчатка" .
  37. ^ Чжао, Цзэюй; и другие. (2018) (2018). «Изучение гендерно-нейтральных встраиваний слов». arXiv : 1809.01496 [ cs.CL ].
  38. ^ "Элмо" .
  39. ^ Пирес, Тельмо; Шлингер, Ева; Гаррет, Дэн (2019-06-04). «Насколько многоязычным является Multilingual BERT?». arXiv : 1906.01502 [ cs.CL ].
  40. ^ "Генсим" .
  41. ^ "Индра" . 2018-10-25.
  42. ^ Гассеми, Мохаммад; Марк, Роджер; Немати, Шамим (2015). «Визуализация развивающихся клинических настроений с использованием векторных представлений клинических заметок» (PDF) . Вычислительная техника в кардиологии .
  43. ^ "Встраивание вьюера" . Встраивание Viewer . Лексические вычисления . Проверено 7 фев 2018 .