Скрытый семантический анализ


Скрытый семантический анализ ( LSA ) — это метод обработки естественного языка , в частности распределительной семантики , анализа отношений между набором документов и терминами, которые они содержат, путем создания набора понятий, связанных с документами и терминами. LSA предполагает, что близкие по значению слова будут встречаться в похожих фрагментах текста ( гипотеза распределения ). Матрица, содержащая количество слов в документе (строки представляют уникальные слова, а столбцы представляют каждый документ), строится из большого фрагмента текста, а математический метод, называемый разложением по сингулярным значениям (SVD), используется для уменьшения количества строк при сохранении структуры сходства. среди колонн. Затем документы сравниваются по косинусному сходству между любыми двумя столбцами. Значения, близкие к 1, представляют очень похожие документы, а значения, близкие к 0, представляют очень разные документы. [1]

Техника поиска информации с использованием скрытой семантической структуры была запатентована в 1988 году ( патент США 4839853 , срок действия которого истек) Скоттом Дирвестером , Сьюзен Дюмэ , Джорджем Фурнасом , Ричардом Харшманом , Томасом Ландауэром , Карен Лохбаум и Линн Стритер . В контексте его применения к поиску информации его иногда называют скрытой семантической индексацией ( LSI ). [2]

LSA может использовать матрицу терминов документа , которая описывает появление терминов в документах; это разреженная матрица , строки которой соответствуют терминам , а столбцы — документам. Типичным примером взвешивания элементов матрицы является tf-idf (частота термина – обратная частота документа): вес элемента матрицы пропорционален количеству раз появления терминов в каждом документе, где редкие термины имеют повышенный вес, чтобы отразить их относительную важность.

Эта матрица также является общей для стандартных семантических моделей, хотя она не обязательно выражается в виде матрицы явно, поскольку не всегда используются математические свойства матриц.

После построения матрицы вхождений LSA находит низкоранговую аппроксимацию [4] матрицы термин-документ . Причин такого приближения может быть несколько:

Следствием понижения ранга является то, что некоторые измерения объединяются и зависят более чем от одного термина: