Коричневая кластеризация

Коричневая кластеризация - это проблема жесткой иерархической агломеративной кластеризации, основанная на распределительной информации, предложенной Питером Брауном , Уильямом А. Брауном, Винсентом Делла Пьетра, Питером В. де Соуза , Дженнифер Лай и Робертом Мерсером . ^[1] Обычно он применяется к тексту, группируя слова в кластеры, которые считаются семантически связанными в силу того, что они встроены в аналогичные контексты.

Введение [ править ]

В обработке естественного языка , Brown кластеризация ^[2] или IBM кластеризация ^[3] является формой иерархической кластеризации слов на основе контекстов , в которых они происходят, предложенный Питером Брауном, Уильям А. Браун, Винсент Делла Пьетра, Питер де Соуза , Дженнифер Лай и Роберт Мерсер из IBM в контексте языкового моделирования . ^[1] Интуиция, лежащая в основе метода, заключается в том, что языковая модель на основе классов (также называемая кластерной моделью $n$ -граммы ^[3]), т.е. вариант, в котором вероятности слов основаны на классах (кластерах) предыдущих слов, используется для решения проблемы разреженности данных, присущей языковому моделированию.

Джурафски и Мартин приводят пример системы бронирования рейсов, которой необходимо оценить вероятность биграммы «до Шанхая», не наблюдая этого в обучающей выборке. ^[3] Система может получить хорошую оценку, если она может сгруппировать «Шанхай» с названиями других городов, а затем сделать свою оценку на основе вероятности таких фраз, как «в Лондон», «в Пекин» и «в Денвер».

Техническое определение [ править ]

Браун группирует элементы (т. Е. Типы ) в классы, используя критерий двоичного слияния, основанный на логарифмической вероятности текста в рамках языковой модели на основе классов, то есть вероятностной модели, которая учитывает кластеризацию. Таким образом, средняя взаимная информация (AMI) является функцией оптимизации, и слияния выбираются таким образом, чтобы они несли наименьшие потери в глобальной взаимной информации .

В результате вывод можно рассматривать не только как двоичное дерево, но, возможно, более полезно как последовательность слияний, завершающуюся одним большим классом всех слов. Эта модель имеет тот же общий вид, что и скрытая марковская модель , сведенная к вероятностям биграмм в решении проблемы Брауном. МИ определяется как:

{\ displaystyle \ operatorname {MI} (c_ {i}, c_ {j}) = \ Pr (\ langle c_ {i}, c_ {j} \ rangle) \ log _ {2} {\ frac {\ Pr ( \ langle c_ {i}, c_ {j} \ rangle)} {\ Pr (\ langle c_ {i}, * \ rangle) \ Pr (\ langle *, c_ {j} \ rangle)}}}

Поиск кластеризации, которая максимизирует вероятность данных, требует больших вычислительных ресурсов. Подход, предложенный Brown et al. это жадные эвристические .

В работе также предлагается использовать кластеризацию Брауна в качестве упрощенной языковой модели на основе классов биграмм. При заданных показателях членства в кластере $c i$ для токенов $w i$ в тексте вероятность экземпляра слова $w i с$ учетом предшествующего слова $w i-1$ определяется следующим образом: ^[3]

{\ Displaystyle \ Pr (w_ {i} | w_ {i-1}) = \ Pr (w_ {i} | c_ {i}) \ Pr (c_ {i} | c_ {i-1})}

Это было раскритиковано ^{[ необходима цитата ]} как имеющее ограниченную полезность, поскольку оно всегда предсказывает только наиболее распространенные слова в любом классе и поэтому ограничено $| c |$ типы слов; это отражается в небольшом относительном сокращении недоумения, обнаруженном при использовании этой модели и Брауна.

Варианты [ править ]

В других работах триграммы исследовались в их подходах к проблеме кластеризации Брауна. ^[4]

Предлагаемая коричневая кластеризация генерирует фиксированное количество выходных классов. Важно выбрать правильное количество занятий, которое зависит от задачи. ^[5] Принадлежность слов к кластерам, полученная в результате кластеризации Брауна, может использоваться в качестве функций в различных задачах машинной обработки естественного языка. ^[2]

Обобщение алгоритма было опубликовано на конференции AAAI в 2016 году, включая краткое формальное определение версии 1992 года, а затем также общую форму. ^{[6] В основе} этого лежит концепция, согласно которой классы, рассматриваемые для слияния, не обязательно представляют окончательное количество выходных классов, и что изменение количества классов, рассматриваемых для слияния, напрямую влияет на скорость и качество конечного результата.

Нет никаких известных теоретических гарантий относительно жадной эвристики, предложенной Брауном и др. (по состоянию на февраль 2018 г.). Однако проблему кластеризации можно сформулировать как оценку параметров базовой языковой модели на основе классов: для этой модели можно разработать непротиворечивую оценку при умеренных предположениях. ^[7]

См. Также [ править ]

Особенности обучения

Ссылки [ править ]

^ ^a ^b Питер Ф. Браун; Питер В. де Соуза; Роберт Л. Мерсер; Винсент Дж. Делла Пьетра; Дженифер С. Лай (1992). «Классовые модели естественного языка с n- граммами» (PDF) . Компьютерная лингвистика . 18 (4).
^ а б Джозеф Туриан; Лев Ратинов; Йошуа Бенжио (2010). Представления слов: простой и общий метод обучения без учителя (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики.
^ a b c d Даниэль Джурафски; Джеймс Х. Мартин (2009). Обработка речи и языка . Pearson Education International. С. 145–146.
^ Свен Мартин; Йорг Лиерманн; Герман Ней (1999). «Алгоритмы кластеризации биграммных и триграммных слов». Речевое общение . 24 (1): 19–37. CiteSeerX 10.1.1.53.2354 . DOI : 10.1016 / S0167-6393 (97) 00062-9 .
^ Leon Derczynski; Шон Честер; Кеннет С. Бог (2015). Настройте коричневую кластеризацию, пожалуйста (PDF) . Труды конференции о последних достижениях в обработке естественного языка.
^ Leon Derczynski; Шон Честер (2016). Обобщенная кластеризация Брауна и генерация агрегированных функций . Труды тридцатой конференции AAAI по искусственному интеллекту.
↑ Карл Стратос; До-кюм Ким; Майкл Коллинз; Даниэль Сюй (2014). Спектральный алгоритм изучения n-граммных моделей естественного языка на основе классов (PDF) . Труды 30-й конференции по неопределенности в искусственном интеллекте.

Внешние ссылки [ править ]

Как настроить коричневую кластеризацию

[:0-1] Питер Ф. Браун; Питер В. де Соуза; Роберт Л. Мерсер; Винсент Дж. Делла Пьетра; Дженифер С. Лай (1992). «Классовые модели естественного языка с n- граммами» (PDF) . Компьютерная лингвистика . 18 (4).

[turian-2] а б Джозеф Туриан; Лев Ратинов; Йошуа Бенжио (2010). Представления слов: простой и общий метод обучения без учителя (PDF) . Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики.

[jurafsky-3] Даниэль Джурафски; Джеймс Х. Мартин (2009). Обработка речи и языка . Pearson Education International. С. 145–146.

[trigrams-4] Свен Мартин; Йорг Лиерманн; Герман Ней (1999). «Алгоритмы кластеризации биграммных и триграммных слов». Речевое общение . 24 (1): 19–37. CiteSeerX 10.1.1.53.2354 . DOI : 10.1016 / S0167-6393 (97) 00062-9 .

[tuning-5] Leon Derczynski; Шон Честер; Кеннет С. Бог (2015). Настройте коричневую кластеризацию, пожалуйста (PDF) . Труды конференции о последних достижениях в обработке естественного языка.

[generalization-6] Leon Derczynski; Шон Честер (2016). Обобщенная кластеризация Брауна и генерация агрегированных функций . Труды тридцатой конференции AAAI по искусственному интеллекту.

[spectral-7] Карл Стратос; До-кюм Ким; Майкл Коллинз; Даниэль Сюй (2014). Спектральный алгоритм изучения n-граммных моделей естественного языка на основе классов (PDF) . Труды 30-й конференции по неопределенности в искусственном интеллекте.

[1]