Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Вероятностный скрытый семантический анализ ( PLSA ), также известный как вероятностное скрытое семантическое индексирование ( PLSI , особенно в кругах поиска информации), представляет собой статистический метод анализа двухрежимных и одновременных данных. Фактически, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их близости к определенным скрытым переменным, точно так же, как в латентно-семантическом анализе , из которого произошел PLSA.

По сравнению со стандартным латентно-семантическим анализом, который исходит из линейной алгебры и уменьшает размеры таблиц вхождений (обычно с помощью разложения по сингулярным значениям ), вероятностный латентно-семантический анализ основан на смешанном разложении, полученном из модели скрытых классов .

Модель [ править ]

Обозначения на табличке, представляющие модель PLSA («асимметричная» формулировка). переменная индекс документа, является темой данного слова взято из распределения темы документа, и этого слово обращено от распределения слов по теме этого слова, в . И являются наблюдаемыми переменными , тема является латентным переменной .

Рассматривая наблюдения в форме совместной встречаемости слов и документов, PLSA моделирует вероятность каждой совместной встречаемости как смесь условно независимых полиномиальных распределений :

где «c» означает тему «слова». Обратите внимание, что количество тем - это гиперпараметр, который необходимо выбирать заранее и не оценивается на основе данных. Первая формулировка - это симметричная формулировка, где и генерируются из латентного класса аналогичными способами (с использованием условных вероятностей и ), тогда как вторая формулировка - это асимметричная формулировка, где для каждого документа латентный класс выбирается условно, чтобы документ в соответствии с , и слово затем генерируется из этого класса в соответствии с. Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных можно смоделировать точно так же.

Итак, количество параметров равно . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA представляет собой генеративную модель документов в коллекции, по которой она оценивается, это не генеративная модель новых документов.

Их параметры изучаются с помощью алгоритма EM .

Заявление [ править ]

PLSA может использоваться в дискриминационной настройке через ядра Фишера . [1]

PLSA имеет приложения для поиска и фильтрации информации , обработки естественного языка , машинного обучения на основе текста и связанных областей.

Сообщается, что аспектная модель, используемая в вероятностном латентно-семантическом анализе, имеет серьезные проблемы с переоснащением . [2]

Расширения [ править ]

  • Иерархические расширения:
    • Асимметричный: MASHA («Полиномиальный асимметричный иерархический анализ») [3]
    • Симметричный: HPLSA («Иерархический вероятностный скрытый семантический анализ») [4]
  • Генеративные модели: следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что это не подходящая генеративная модель для новых документов.
  • Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), то есть он может моделировать совместное появление трех или более переменных. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

История [ править ]

Это пример модели скрытых классов (см. Ссылки в ней), и он связан [5] [6] с неотрицательной матричной факторизацией . Настоящая терминология была изобретена в 1999 году Томасом Хофманном. [7]

См. Также [ править ]

Ссылки и примечания [ править ]

  1. ^ Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и категоризации документов , Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press , 2000
  2. ^ Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF) . Журнал исследований в области машинного обучения . 3 : 993–1022. DOI : 10.1162 / jmlr.2003.3.4-5.993 .
  3. ^ Алексей Винокуров и Марк Джиролами, Вероятностная структура для иерархической организации и классификации коллекций документов , в Обработке информации и управлении , 2002
  4. ^ Эрик Gaussier, Кирилл Goutte, Kris Popat и Франсин Chen, иерархическая модель для кластеризации и категоризации документов Архивных 2016-03-04 в Wayback Machine , в «Достижение винформационного поиска - Труды 24е BCS-МИКА Европейского коллоквиуме IR Research (ECIR-02) », 2002 г.
  5. Перейти ↑ Chris Ding, Tao Li, Wei Peng (2006). " Неотрицательная матричная факторизация и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006"
  6. Перейти ↑ Chris Ding, Tao Li, Wei Peng (2008). « Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования»
  7. ^ Томас Хофманн, Вероятностное скрытое семантическое индексирование , Труды двадцать второй ежегодной международнойконференции SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR-99), 1999

Внешние ссылки [ править ]

  • Вероятностный скрытый семантический анализ
  • Завершите PLSA DEMO на C #