Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Структурированное прогнозирование или структурированное (выходное) обучение - это общий термин для методов контролируемого машинного обучения, которые включают прогнозирование структурированных объектов, а не скалярных дискретных или реальных значений. [1]

Подобно обычно используемым методам обучения с учителем, модели структурированного прогнозирования обычно обучаются с помощью наблюдаемых данных, в которых истинное значение прогноза используется для настройки параметров модели. [2] Из-за сложности модели и взаимосвязи прогнозируемых переменных процесс прогнозирования с использованием обученной модели и само обучение часто невозможно с вычислительной точки зрения, поэтому используются приближенные методы вывода и обучения.

Приложения [ править ]

Например, проблема перевода предложения на естественном языке в синтаксическое представление, такое как дерево синтаксического анализа, может рассматриваться как проблема структурированного прогнозирования [3], в которой структурированная область вывода представляет собой набор всех возможных деревьев синтаксического анализа. Структурированное прогнозирование также используется в широком спектре прикладных областей, включая биоинформатику , обработку естественного языка , распознавание речи и компьютерное зрение .

Пример: тегирование последовательности [ править ]

Маркировка последовательностей - это класс проблем, распространенных при обработке естественного языка , когда входными данными часто являются последовательности (например, предложения текста). Проблема маркировки последовательности проявляется в нескольких обличьях, например, при маркировке части речи и распознавании именованных объектов . Например, в POS-тегах каждое слово в последовательности должно получать "тег" (метку класса), который выражает его "тип" слова:

Основная задача этой проблемы - устранить двусмысленность : слово «предложение» также может быть глаголом в английском языке, как и «тегированный».

Хотя эта проблема может быть решена простым выполнением классификации отдельных токенов, этот подход не принимает во внимание эмпирический факт, что теги не возникают независимо; вместо этого каждый тег демонстрирует сильную условную зависимость от тега предыдущего слова. Этот факт можно использовать в модели последовательности, такой как скрытая марковская модель или условное случайное поле [3], которое предсказывает всю последовательность тегов для предложения, а не только отдельные теги, с помощью алгоритма Витерби .

Методы [ править ]

Вероятностные графические модели составляют большой класс моделей структурированного прогнозирования. В частности, популярны байесовские сети и случайные поля . Другие алгоритмы и модели для структурированного прогнозирования включают индуктивное логическое программирование , рассуждения на основе случаев , структурированные SVM , логические сети Маркова и условные модели с ограничениями . Основные приемы:

  • Условное случайное поле
  • Структурированная опорная векторная машина
  • Структурированные k-ближайшие соседи
  • Рекуррентная нейронная сеть , в частности сеть Эльмана

Структурированный перцептрон [ править ]

Один из самых простых способов понять алгоритмы общего структурированного предсказания - это структурированный перцептрон Коллинза . [4] Этот алгоритм сочетает в себе алгоритм персептрона для обучения линейных классификаторов с алгоритмом вывода (классическим алгоритмом Витерби при использовании с данными последовательности) и может быть абстрактно описан следующим образом. Сначала определите «функцию совместного признака» Φ ( x , y ), которая отображает обучающую выборку x и предсказание кандидата y на вектор длины n ( x и y могут иметь любую структуру; nзависит от проблемы, но должен быть исправлен для каждой модели). Пусть GEN будет функцией, которая генерирует прогнозы кандидатов. Потом:

Пусть - весовой вектор длины n
Для заранее определенного количества итераций:
Для каждого образца в обучающем наборе с истинным выходом :
Сделать прогноз
Обновление от до : , является скорость обучения

На практике поиск argmax over будет выполняться с использованием такого алгоритма, как Витерби, или алгоритма, такого как max-sum , а не путем исчерпывающего поиска по экспоненциально большому набору кандидатов.

Идея обучения похожа на мультиклассовый персептрон .

Ссылки [ править ]

  1. ^ Гекхан Бакир, Бен Таскар, Томас Хофманн, Бернхард Шёлкопф, Алекс Смола и SVN Вишванатан (2007), Прогнозирование структурированных данных , MIT Press.
  2. ^ Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2021). «Быстрые темпы в структурированном прогнозировании». CoRR . arXiv : 2102.00760 .
  3. ^ a b Лафферти, Дж., МакКаллум, А., Перейра, Ф. (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности» (PDF) . Proc. 18-я международная конф. по машинному обучению . С. 282–289. CS1 maint: uses authors parameter (link)
  4. ^ Коллинз, Майкл (2002). Дискриминационные методы обучения скрытых марковских моделей: теория и эксперименты с алгоритмами персептрона (PDF) . Proc. ЕМНЛП. 10 .
  • Ной Смит, Прогнозирование лингвистической структуры , 2011.
  • Майкл Коллинз, Дискриминационные методы обучения для скрытых марковских моделей , 2002.

Внешние ссылки [ править ]

  • Реализация структурированного перцептрона Коллинза