Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Коричневая кластеризация - это проблема жесткой иерархической агломеративной кластеризации, основанная на распределительной информации, предложенной Питером Брауном , Уильямом А. Брауном, Винсентом Делла Пьетра, Питером В. де Соуза , Дженнифер Лай и Робертом Мерсером . [1] Обычно он применяется к тексту, группируя слова в кластеры, которые считаются семантически связанными в силу того, что они встроены в аналогичные контексты.

Введение [ править ]

В обработке естественного языка , Brown кластеризация [2] или IBM кластеризация [3] является формой иерархической кластеризации слов на основе контекстов , в которых они происходят, предложенный Питером Брауном, Уильям А. Браун, Винсент Делла Пьетра, Питер де Соуза , Дженнифер Лай и Роберт Мерсер из IBM в контексте языкового моделирования . [1] Интуиция, лежащая в основе метода, заключается в том, что языковая модель на основе классов (также называемая кластерной моделью n -граммы [3]), т.е. вариант, в котором вероятности слов основаны на классах (кластерах) предыдущих слов, используется для решения проблемы разреженности данных, присущей языковому моделированию.

Джурафски и Мартин приводят пример системы бронирования рейсов, которой необходимо оценить вероятность биграммы «до Шанхая», не наблюдая этого в обучающей выборке. [3] Система может получить хорошую оценку, если она может сгруппировать «Шанхай» с названиями других городов, а затем сделать свою оценку на основе вероятности таких фраз, как «в Лондон», «в Пекин» и «в Денвер».

Техническое определение [ править ]

Браун группирует элементы (т. Е. Типы ) в классы, используя критерий двоичного слияния, основанный на логарифмической вероятности текста в рамках языковой модели на основе классов, то есть вероятностной модели, которая учитывает кластеризацию. Таким образом, средняя взаимная информация (AMI) является функцией оптимизации, и слияния выбираются таким образом, чтобы они несли наименьшие потери в глобальной взаимной информации .

В результате вывод можно рассматривать не только как двоичное дерево, но, возможно, более полезно как последовательность слияний, завершающуюся одним большим классом всех слов. Эта модель имеет тот же общий вид, что и скрытая марковская модель , сведенная к вероятностям биграмм в решении проблемы Брауном. МИ определяется как:

Поиск кластеризации, которая максимизирует вероятность данных, требует больших вычислительных ресурсов. Подход, предложенный Brown et al. это жадные эвристические .

В работе также предлагается использовать кластеризацию Брауна в качестве упрощенной языковой модели на основе классов биграмм. При заданных показателях членства в кластере c i для токенов w i в тексте вероятность экземпляра слова w i с учетом предшествующего слова w i-1 определяется следующим образом: [3]

Это было раскритиковано [ необходима цитата ] как имеющее ограниченную полезность, поскольку оно всегда предсказывает только наиболее распространенные слова в любом классе и поэтому ограничено | c | типы слов; это отражается в небольшом относительном сокращении недоумения, обнаруженном при использовании этой модели и Брауна.

Варианты [ править ]

В других работах триграммы исследовались в их подходах к проблеме кластеризации Брауна. [4]

Предлагаемая коричневая кластеризация генерирует фиксированное количество выходных классов. Важно выбрать правильное количество занятий, которое зависит от задачи. [5] Принадлежность слов к кластерам, полученная в результате кластеризации Брауна, может использоваться в качестве функций в различных задачах машинной обработки естественного языка. [2]

Обобщение алгоритма было опубликовано на конференции AAAI в 2016 году, включая краткое формальное определение версии 1992 года, а затем также общую форму. [6] В основе этого лежит концепция, согласно которой классы, рассматриваемые для слияния, не обязательно представляют окончательное количество выходных классов, и что изменение количества классов, рассматриваемых для слияния, напрямую влияет на скорость и качество конечного результата.

Нет никаких известных теоретических гарантий относительно жадной эвристики, предложенной Брауном и др. (по состоянию на февраль 2018 г.). Однако проблему кластеризации можно сформулировать как оценку параметров базовой языковой модели на основе классов: для этой модели можно разработать непротиворечивую оценку при умеренных предположениях. [7]

См. Также [ править ]

Ссылки [ править ]

  1. ^ a b Питер Ф. Браун; Питер В. де Соуза; Роберт Л. Мерсер; Винсент Дж. Делла Пьетра; Дженифер С. Лай (1992). «Классовые модели естественного языка с n- граммами» (PDF) . Компьютерная лингвистика . 18 (4).
  2. ^ а б Джозеф Туриан; Лев Ратинов; Йошуа Бенжио (2010). Представления слов: простой и общий метод обучения без учителя (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики.
  3. ^ a b c d Даниэль Джурафски; Джеймс Х. Мартин (2009). Обработка речи и языка . Pearson Education International. С. 145–146.
  4. ^ Свен Мартин; Йорг Лиерманн; Герман Ней (1999). «Алгоритмы кластеризации биграммных и триграммных слов». Речевое общение . 24 (1): 19–37. CiteSeerX 10.1.1.53.2354 . DOI : 10.1016 / S0167-6393 (97) 00062-9 . 
  5. ^ Leon Derczynski; Шон Честер; Кеннет С. Бог (2015). Настройте коричневую кластеризацию, пожалуйста (PDF) . Труды конференции о последних достижениях в обработке естественного языка.
  6. ^ Leon Derczynski; Шон Честер (2016). Обобщенная кластеризация Брауна и генерация агрегированных функций . Труды тридцатой конференции AAAI по искусственному интеллекту.
  7. Карл Стратос; До-кюм Ким; Майкл Коллинз; Даниэль Сюй (2014). Спектральный алгоритм изучения n-граммных моделей естественного языка на основе классов (PDF) . Труды 30-й конференции по неопределенности в искусственном интеллекте.

Внешние ссылки [ править ]

  • Как настроить коричневую кластеризацию