Явный семантический анализ

В обработке естественного языка и информационного поиска , явный семантический анализ ( ESA ) является переносчиками представление текста (отдельные слова или целые документы) , которая использует документ корпус в качестве базы знаний . В частности, в ESA слово представлено как вектор -столбец в матрице tf – idf текстового корпуса, а документ (строка слов) представлен как центроид векторов, представляющих его слова. Обычно текстовый корпус представляет собой английскую Википедию , хотя использовались и другие корпуса, включая Open Directory Project . ^[1]

ESA был разработан Евгением Габриловичем и Шаулем Марковичем как средство улучшения категоризации текста ^[2] и использовался этой парой исследователей для вычисления того, что они называют « семантическим родством», посредством косинусного сходства между вышеупомянутыми векторами, вместе взятыми. интерпретируется как пространство «понятий, явно определенных и описанных людьми», где статьи Википедии (или записи ODP, или иным образом названия документов в корпусе базы знаний) приравниваются к концепциям. Название «явный семантический анализ» контрастирует с латентно-семантическим анализом.(LSA), потому что использование базы знаний позволяет назначать удобочитаемые метки концепциям, составляющим векторное пространство. ^[1]^[3]

Модель [ править ]

Чтобы выполнить базовый вариант ESA, нужно начать с набора текстов, скажем, всех статей Википедии; пусть количество документов в коллекции будет $N$ . Все они превращаются в « мешки слов », то есть гистограммы частот терминов, хранящиеся в инвертированном индексе . Используя этот инвертированный индекс, для любого слова можно найти набор статей Википедии, содержащих это слово; в словаре Егози, Марковича и Габриловича «каждое слово, появляющееся в корпусе Википедии, можно рассматривать как запускающее каждое из понятий, на которое оно указывает в перевернутом указателе». ^[1]

Результатом инвертированного индекса для однословного запроса является список проиндексированных документов (статей Википедии), каждому из которых присваивается оценка в зависимости от того, как часто в них встречается данное слово (взвешенное по общему количеству слов в документе). Математически этот список представляет собой $N-$ мерный вектор оценок словесных документов, где документ, не содержащий слова запроса, имеет нулевую оценку. Чтобы вычислить родство двух слов, сравнивают векторы (скажем, $u$ и $v$ ), вычисляя косинусное сходство,

{\ displaystyle {\ mathsf {sim}} (\ mathbf {u}, \ mathbf {v}) = {\ frac {\ mathbf {u} \ cdot \ mathbf {v}} {\ | \ mathbf {u} \ | \ | \ mathbf {v} \ |}} = {\ frac {\ sum _ {i = 1} ^ {N} u_ {i} v_ {i}} {{\ sqrt {\ sum _ {i = 1) } ^ {N} u_ {i} ^ {2}}} {\ sqrt {\ sum _ {i = 1} ^ {N} v_ {i} ^ {2}}}}}}

и это дает числовую оценку семантического родства слов. Схема расширяется от отдельных слов до текстов, состоящих из нескольких слов, путем простого суммирования векторов всех слов в тексте. ^[3]

Анализ [ править ]

ESA, первоначально предложенное Габриловичем и Марковичем, работает в предположении, что база знаний содержит тематически ортогональные концепции. Однако позже Андерка и Штейн показали, что ESA также улучшает производительность информационно-поисковых систем, когда оно основано не на Википедии, а на корпусе новостных статей Reuters , который не удовлетворяет свойству ортогональности; в своих экспериментах Андерка и Штайн использовали новостные ленты как «концепции». ^[4] Чтобы объяснить это наблюдение, были показаны связи между ESA и обобщенной моделью векторного пространства . ^[5]Габрилович и Маркович ответили Андерке и Штейну, указав, что их экспериментальный результат был достигнут с использованием «единственного применения ESA (подобие текста)» и «всего лишь единственного, чрезвычайно маленького и однородного тестового набора из 50 новостных документов». ^[1]

Приложения [ править ]

Связь слов [ править ]

ESA рассматривается его авторами как мера семантического родства (в отличие от семантического сходства ). В наборах данных, используемых для оценки родства слов, ESA превосходит другие алгоритмы, включая меры семантического сходства WordNet и языковую модель нейронной сети с пропуском грамматики ( Word2vec ). ^[6]

Связь документов [ править ]

ESA используется в коммерческих пакетах программного обеспечения для вычисления взаимосвязи документов. ^[7] Специфичные для домена ограничения модели ESA иногда используются для обеспечения более надежного сопоставления документов. ^[8]

Расширения [ править ]

Кросс-языковой явный семантический анализ (CL-ESA) - это многоязычное обобщение ESA. ^[9] CL-ESA использует выровненную по документу многоязычную справочную коллекцию (например, снова Википедию) для представления документа как независимого от языка концептуального вектора. Связь двух документов на разных языках оценивается по косинусному сходству между соответствующими векторными представлениями.

См. Также [ править ]

Тематическая модель

Ссылки [ править ]

^ a b c d Эгози, Офер; Маркович, Шауль; Габрилович, Евгений (2011). «Концептуальный поиск информации с использованием явного семантического анализа» (PDF) . ACM-транзакции в информационных системах . 29 (2): 1–34. DOI : 10.1145 / 1961209.1961211 . S2CID 743663 . Проверено 3 января 2015 года .
↑ Габрилович Евгений; Маркович, Шауль (2006). Преодоление уязвимости узкого места с помощью Википедии: улучшение категоризации текста с помощью энциклопедических знаний (PDF) . Proc. 21-я Национальная конференция по искусственному интеллекту (AAAI). С. 1301–1306.
^ a b Габрилович Евгений; Маркович, Шауль (2007). Вычисление семантической взаимосвязи с использованием явного семантического анализа на основе Википедии (PDF) . Proc. 20-я Международная совместная конференция. по искусственному интеллекту (IJCAI). С. 1606–1611.
^ Maik Anderka и Бен Stein. Возвращение к модели поиска ESA . Материалы 32-й Международной конференции ACM по исследованиям и разработкам в области информационного поиска (SIGIR), стр. 670-671, 2009 г.
^ Томас Gottron, Maik Anderka и Бен Stein. Понимание явного семантического анализа . Материалы 20-й Международной конференции ACM по управлению информацией и знаниями (CIKM), стр. 1961-1964, 2011.
^ Kliegr, Томаш, и Ондржей Zamazal. Антонимы похожи: к парадигматическому ассоциативному подходу к оценке сходства в SimLex-999 и WordSim-353. Инженерия данных и знаний 115 (2018): 174-193. (источник может быть платным, зеркало )
^ https://blogs.oracle.com/r/explicit-semantic-analysis-esa-for-text-analytics
^ Лука Маццол, Патрик Siegfried, Андреас Waldis, Майкл Кауфман, Александр Дензлер. Подход ESA к семантическому описанию документов . Труды 9-й конференции IEEE Conf. по интеллектуальным системам 2018 (IS), стр. 383-390, 2018.
^ Мартин Potthast, Бен Stein, и Maik Anderka. Многоязычная модель поиска на основе Википедии . Труды 30-й Европейской конференции по исследованиям в области IR (ECIR), стр. 522-530, 2008 г.

Внешние ссылки [ править ]

Явный семантический анализ на домашней странице Евгения Габриловича; есть ссылки на реализации

[tois-1] Эгози, Офер; Маркович, Шауль; Габрилович, Евгений (2011). «Концептуальный поиск информации с использованием явного семантического анализа» (PDF) . ACM-транзакции в информационных системах . 29 (2): 1–34. DOI : 10.1145 / 1961209.1961211 . S2CID 743663 . Проверено 3 января 2015 года .

[2] Габрилович Евгений; Маркович, Шауль (2006). Преодоление уязвимости узкого места с помощью Википедии: улучшение категоризации текста с помощью энциклопедических знаний (PDF) . Proc. 21-я Национальная конференция по искусственному интеллекту (AAAI). С. 1301–1306.

[ijcai-3] Габрилович Евгений; Маркович, Шауль (2007). Вычисление семантической взаимосвязи с использованием явного семантического анализа на основе Википедии (PDF) . Proc. 20-я Международная совместная конференция. по искусственному интеллекту (IJCAI). С. 1606–1611.

[4] Maik Anderka и Бен Stein. Возвращение к модели поиска ESA . Материалы 32-й Международной конференции ACM по исследованиям и разработкам в области информационного поиска (SIGIR), стр. 670-671, 2009 г.

[5] Томас Gottron, Maik Anderka и Бен Stein. Понимание явного семантического анализа . Материалы 20-й Международной конференции ACM по управлению информацией и знаниями (CIKM), стр. 1961-1964, 2011.

[6] Kliegr, Томаш, и Ондржей Zamazal. Антонимы похожи: к парадигматическому ассоциативному подходу к оценке сходства в SimLex-999 и WordSim-353. Инженерия данных и знаний 115 (2018): 174-193. (источник может быть платным, зеркало )

[7] ttps://blogs.oracle.com/r/explicit-semantic-analysis-esa-for-text-analytics

[8] Лука Маццол, Патрик Siegfried, Андреас Waldis, Майкл Кауфман, Александр Дензлер. Подход ESA к семантическому описанию документов . Труды 9-й конференции IEEE Conf. по интеллектуальным системам 2018 (IS), стр. 383-390, 2018.

[9] Мартин Potthast, Бен Stein, и Maik Anderka. Многоязычная модель поиска на основе Википедии . Труды 30-й Европейской конференции по исследованиям в области IR (ECIR), стр. 522-530, 2008 г.

[1]