Вероятностный скрытый семантический анализ ( PLSA ), также известный как вероятностное скрытое семантическое индексирование ( PLSI , особенно в кругах поиска информации), представляет собой статистический метод анализа двухрежимных и одновременных данных. Фактически, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их близости к определенным скрытым переменным, точно так же, как в латентно-семантическом анализе , из которого произошел PLSA.
По сравнению со стандартным латентно-семантическим анализом, который исходит из линейной алгебры и уменьшает размеры таблиц вхождений (обычно с помощью разложения по сингулярным значениям ), вероятностный латентно-семантический анализ основан на смешанном разложении, полученном из модели скрытых классов .
Модель [ править ]
Рассматривая наблюдения в форме совместной встречаемости слов и документов, PLSA моделирует вероятность каждой совместной встречаемости как смесь условно независимых полиномиальных распределений :
где «c» означает тему «слова». Обратите внимание, что количество тем - это гиперпараметр, который необходимо выбирать заранее и не оценивается на основе данных. Первая формулировка - это симметричная формулировка, где и генерируются из латентного класса аналогичными способами (с использованием условных вероятностей и ), тогда как вторая формулировка - это асимметричная формулировка, где для каждого документа латентный класс выбирается условно, чтобы документ в соответствии с , и слово затем генерируется из этого класса в соответствии с. Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных можно смоделировать точно так же.
Итак, количество параметров равно . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA представляет собой генеративную модель документов в коллекции, по которой она оценивается, это не генеративная модель новых документов.
Их параметры изучаются с помощью алгоритма EM .
Заявление [ править ]
PLSA может использоваться в дискриминационной настройке через ядра Фишера . [1]
PLSA имеет приложения для поиска и фильтрации информации , обработки естественного языка , машинного обучения на основе текста и связанных областей.
Сообщается, что аспектная модель, используемая в вероятностном латентно-семантическом анализе, имеет серьезные проблемы с переоснащением . [2]
Расширения [ править ]
- Иерархические расширения:
- Генеративные модели: следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что это не подходящая генеративная модель для новых документов.
- Скрытое распределение Дирихле - добавляет Дирихле перед распределением тем по каждому документу.
- Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), то есть он может моделировать совместное появление трех или более переменных. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.
История [ править ]
Это пример модели скрытых классов (см. Ссылки в ней), и он связан [5] [6] с неотрицательной матричной факторизацией . Настоящая терминология была изобретена в 1999 году Томасом Хофманном. [7]
См. Также [ править ]
- Обработка сложных терминов
- Распределение патинко
- Векторная модель пространства
Ссылки и примечания [ править ]
- ^ Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и категоризации документов , Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press , 2000
- ^ Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF) . Журнал исследований в области машинного обучения . 3 : 993–1022. DOI : 10.1162 / jmlr.2003.3.4-5.993 .
- ^ Алексей Винокуров и Марк Джиролами, Вероятностная структура для иерархической организации и классификации коллекций документов , в Обработке информации и управлении , 2002
- ^ Эрик Gaussier, Кирилл Goutte, Kris Popat и Франсин Chen, иерархическая модель для кластеризации и категоризации документов Архивных 2016-03-04 в Wayback Machine , в «Достижение винформационного поиска - Труды 24е BCS-МИКА Европейского коллоквиуме IR Research (ECIR-02) », 2002 г.
- Перейти ↑ Chris Ding, Tao Li, Wei Peng (2006). " Неотрицательная матричная факторизация и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006"
- Перейти ↑ Chris Ding, Tao Li, Wei Peng (2008). « Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования»
- ^ Томас Хофманн, Вероятностное скрытое семантическое индексирование , Труды двадцать второй ежегодной международнойконференции SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR-99), 1999
Внешние ссылки [ править ]
- Вероятностный скрытый семантический анализ
- Завершите PLSA DEMO на C #