Вероятностный латентно-семантический анализ

Вероятностный скрытый семантический анализ ( PLSA ), также известный как вероятностное скрытое семантическое индексирование ( PLSI , особенно в кругах поиска информации), представляет собой статистический метод анализа двухрежимных и одновременных данных. Фактически, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их близости к определенным скрытым переменным, точно так же, как в латентно-семантическом анализе , из которого произошел PLSA.

По сравнению со стандартным латентно-семантическим анализом, который исходит из линейной алгебры и уменьшает размеры таблиц вхождений (обычно с помощью разложения по сингулярным значениям ), вероятностный латентно-семантический анализ основан на смешанном разложении, полученном из модели скрытых классов .

Модель [ править ]

Обозначения на табличке, представляющие модель PLSA («асимметричная» формулировка). переменная индекс документа, является темой данного слова взято из распределения темы документа, и этого слово обращено от распределения слов по теме этого слова, в . И являются наблюдаемыми переменными , тема является латентным переменной .

d

c

P(c|d)

w

P(w|c)

d

w

c

Рассматривая наблюдения в форме совместной встречаемости слов и документов, PLSA моделирует вероятность каждой совместной встречаемости как смесь условно независимых полиномиальных распределений : $(w,d)$

P(w,d)=\sum _{c}P(c)P(d|c)P(w|c)=P(d)\sum _{c}P(c|d)P(w|c)

где «c» означает тему «слова». Обратите внимание, что количество тем - это гиперпараметр, который необходимо выбирать заранее и не оценивается на основе данных. Первая формулировка - это симметричная формулировка, где и генерируются из латентного класса аналогичными способами (с использованием условных вероятностей и ), тогда как вторая формулировка - это асимметричная формулировка, где для каждого документа латентный класс выбирается условно, чтобы документ в соответствии с , и слово затем генерируется из этого класса в соответствии с $w$ $d$ $c$ $P(d|c)$ $P(w|c)$ $d$ $P(c|d)$ $P(w|c)$ . Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных можно смоделировать точно так же.

Итак, количество параметров равно . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA представляет собой генеративную модель документов в коллекции, по которой она оценивается, это не генеративная модель новых документов. $cd+wc$

Их параметры изучаются с помощью алгоритма EM .

Заявление [ править ]

PLSA может использоваться в дискриминационной настройке через ядра Фишера . ^[1]

PLSA имеет приложения для поиска и фильтрации информации , обработки естественного языка , машинного обучения на основе текста и связанных областей.

Сообщается, что аспектная модель, используемая в вероятностном латентно-семантическом анализе, имеет серьезные проблемы с переоснащением . ^[2]

Расширения [ править ]

Иерархические расширения:
- Асимметричный: MASHA («Полиномиальный асимметричный иерархический анализ») ^[3]
- Симметричный: HPLSA («Иерархический вероятностный скрытый семантический анализ») ^[4]

Генеративные модели: следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что это не подходящая генеративная модель для новых документов.
- Скрытое распределение Дирихле - добавляет Дирихле перед распределением тем по каждому документу.
Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), то есть он может моделировать совместное появление трех или более переменных. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

История [ править ]

Это пример модели скрытых классов (см. Ссылки в ней), и он связан ^[5]^[6] с неотрицательной матричной факторизацией . Настоящая терминология была изобретена в 1999 году Томасом Хофманном. ^[7]

См. Также [ править ]

Обработка сложных терминов
Распределение патинко
Векторная модель пространства

Ссылки и примечания [ править ]

^ Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и категоризации документов , Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press , 2000
^ Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF) . Журнал исследований в области машинного обучения . 3 : 993–1022. DOI : 10.1162 / jmlr.2003.3.4-5.993 .
^ Алексей Винокуров и Марк Джиролами, Вероятностная структура для иерархической организации и классификации коллекций документов , в Обработке информации и управлении , 2002
^ Эрик Gaussier, Кирилл Goutte, Kris Popat и Франсин Chen, иерархическая модель для кластеризации и категоризации документов Архивных 2016-03-04 в Wayback Machine , в «Достижение винформационного поиска - Труды 24е BCS-МИКА Европейского коллоквиуме IR Research (ECIR-02) », 2002 г.
Перейти ↑ Chris Ding, Tao Li, Wei Peng (2006). " Неотрицательная матричная факторизация и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006"
Перейти ↑ Chris Ding, Tao Li, Wei Peng (2008). « Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования»
^ Томас Хофманн, Вероятностное скрытое семантическое индексирование , Труды двадцать второй ежегодной международнойконференции SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR-99), 1999

Внешние ссылки [ править ]

Вероятностный скрытый семантический анализ
Завершите PLSA DEMO на C #

[1] Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и категоризации документов , Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press , 2000

[2] Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF) . Журнал исследований в области машинного обучения . 3 : 993–1022. DOI : 10.1162 / jmlr.2003.3.4-5.993 .

[3] Алексей Винокуров и Марк Джиролами, Вероятностная структура для иерархической организации и классификации коллекций документов , в Обработке информации и управлении , 2002

[4] Эрик Gaussier, Кирилл Goutte, Kris Popat и Франсин Chen, иерархическая модель для кластеризации и категоризации документов Архивных 2016-03-04 в Wayback Machine , в «Достижение винформационного поиска - Труды 24е BCS-МИКА Европейского коллоквиуме IR Research (ECIR-02) », 2002 г.

[5] Перейти ↑ Chris Ding, Tao Li, Wei Peng (2006). " Неотрицательная матричная факторизация и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006"

[6] Перейти ↑ Chris Ding, Tao Li, Wei Peng (2008). « Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования»

[7] Томас Хофманн, Вероятностное скрытое семантическое индексирование , Труды двадцать второй ежегодной международнойконференции SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR-99), 1999

[1]