Структурированный прогноз

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Статьи по Теме Глоссарий искусственного интеллекта Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

Структурированное прогнозирование или структурированное (выходное) обучение - это общий термин для контролируемых методов машинного обучения, которые включают прогнозирование структурированных объектов, а не скалярных дискретных или реальных значений. ^[1]

Подобно обычно используемым методам обучения с учителем, модели структурированного прогнозирования обычно обучаются с помощью наблюдаемых данных, в которых истинное значение прогноза используется для настройки параметров модели. ^[2] Из-за сложности модели и взаимосвязи прогнозируемых переменных процесс прогнозирования с использованием обученной модели и само обучение часто невозможно с вычислительной точки зрения, поэтому используются приближенные методы вывода и обучения.

Приложения [ править ]

Например, проблема перевода предложения на естественном языке в синтаксическое представление, такое как дерево синтаксического анализа, может рассматриваться как проблема структурированного прогнозирования ^[3], в которой структурированная область вывода представляет собой набор всех возможных деревьев синтаксического анализа. Структурированное прогнозирование также используется в широком спектре прикладных областей, включая биоинформатику , обработку естественного языка , распознавание речи и компьютерное зрение .

Пример: тегирование последовательности [ править ]

Маркировка последовательностей - это класс проблем, распространенных при обработке естественного языка , когда входными данными часто являются последовательности (например, предложения текста). Проблема маркировки последовательностей проявляется в нескольких обличьях, например, при маркировке части речи и распознавании именованных объектов . Например, в POS-тегах каждое слово в последовательности должно получать «тег» (метку класса), который выражает его «тип» слова:

Этот	DT
является	ВБЗ
а	DT
отмечен	JJ
приговор	NN
.	.

Основная задача этой проблемы - устранить двусмысленность : слово «предложение» также может быть глаголом в английском языке, как и «тегированный».

Хотя эта проблема может быть решена путем простого выполнения классификации отдельных токенов, этот подход не принимает во внимание эмпирический факт, что теги не возникают независимо; вместо этого каждый тег демонстрирует сильную условную зависимость от тега предыдущего слова. Этот факт можно использовать в модели последовательности, такой как скрытая марковская модель или условное случайное поле ^[3], которое предсказывает всю последовательность тегов для предложения, а не только отдельные теги, с помощью алгоритма Витерби .

Методы [ править ]

Вероятностные графические модели образуют большой класс моделей структурированного прогнозирования. В частности, популярны байесовские сети и случайные поля . Другие алгоритмы и модели для структурированного прогнозирования включают индуктивное логическое программирование , рассуждения на основе случаев , структурированные SVM , логические сети Маркова и условные модели с ограничениями . Основные приемы:

Условное случайное поле
Структурированная опорная векторная машина
Структурированные k-ближайшие соседи
Рекуррентная нейронная сеть , в частности сеть Эльмана

Структурированный перцептрон [ править ]

Один из самых простых способов понять алгоритмы общего структурированного прогнозирования - это структурированный перцептрон Коллинза . ^[4] Этот алгоритм объединяет алгоритм персептрона для обучения линейных классификаторов с алгоритмом вывода (классическим алгоритмом Витерби при использовании с данными последовательности) и может быть описан абстрактно следующим образом. Сначала определите «функцию совместной функции» Φ ( x , y ), которая отображает обучающую выборку x и прогнозирование кандидата y на вектор длины n ( x и y могут иметь любую структуру; nзависит от проблемы, но должен быть исправлен для каждой модели). Пусть GEN будет функцией, которая генерирует предсказания кандидатов. Потом:

Пусть - весовой вектор длины n

{\ displaystyle w}

Для заранее определенного количества итераций:

Для каждого образца в обучающем наборе с истинным выходом :

{\ displaystyle x}

{\ displaystyle t}

Сделать прогноз

{\ displaystyle {\ hat {y}} = {\ operatorname {arg \, max}} \, \ {{y} \ in {GEN} ({x}) \} \, ({w} ^ {T} \, \ phi ({x}, {y}))}

Обновление от до : , является скорость обучения

{\ displaystyle w}

{\ displaystyle {\ hat {y}}}

{\ displaystyle t}

{\ displaystyle {w} = {w} + {c} (- \ phi ({x}, {\ hat {y}}) + \ phi ({x}, {t}))}

{\ displaystyle c}

На практике поиск argmax over будет выполняться с использованием такого алгоритма, как Витерби, или алгоритма, такого как max-sum , а не путем исчерпывающего поиска по экспоненциально большому набору кандидатов. ${\ displaystyle {GEN} ({x})}$

Идея обучения похожа на мультиклассовый персептрон .

Ссылки [ править ]

^ Гекхан Бакир, Бен Таскар, Томас Хофманн, Бернхард Шёлкопф, Алекс Смола и SVN Вишванатан (2007), Прогнозирование структурированных данных , MIT Press.
^ Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2021). «Быстрые темпы в структурированном прогнозировании». CoRR . arXiv : 2102.00760 .
^ a b Лафферти, Дж., МакКаллум, А., Перейра, Ф. (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности» (PDF) . Proc. 18-я Международная конф. по машинному обучению . С. 282–289. CS1 maint: uses authors parameter (link)
^ Коллинз, Майкл (2002). Дискриминационные методы обучения скрытых марковских моделей: теория и эксперименты с алгоритмами персептрона (PDF) . Proc. ЕМНЛП. 10 .

Ной Смит, Прогнозирование лингвистической структуры , 2011.
Майкл Коллинз, Дискриминационные методы обучения для скрытых марковских моделей , 2002.

Внешние ссылки [ править ]

Реализация структурированного перцептрона Коллинза

[1] Гекхан Бакир, Бен Таскар, Томас Хофманн, Бернхард Шёлкопф, Алекс Смола и SVN Вишванатан (2007), Прогнозирование структурированных данных , MIT Press.

[2] Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2021). «Быстрые темпы в структурированном прогнозировании». CoRR . arXiv : 2102.00760 .

[Laf:McC:Per01-3] Лафферти, Дж., МакКаллум, А., Перейра, Ф. (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности» (PDF) . Proc. 18-я Международная конф. по машинному обучению . С. 282–289. CS1 maint: uses authors parameter (link)

[4] Коллинз, Майкл (2002). Дискриминационные методы обучения скрытых марковских моделей: теория и эксперименты с алгоритмами персептрона (PDF) . Proc. ЕМНЛП. 10 .