Часть серии по |
Машинное обучение и интеллектуальный анализ данных |
---|
Структурированное прогнозирование или структурированное (выходное) обучение - это общий термин для контролируемых методов машинного обучения, которые включают прогнозирование структурированных объектов, а не скалярных дискретных или реальных значений. [1]
Подобно обычно используемым методам обучения с учителем, модели структурированного прогнозирования обычно обучаются с помощью наблюдаемых данных, в которых истинное значение прогноза используется для настройки параметров модели. [2] Из-за сложности модели и взаимосвязи прогнозируемых переменных процесс прогнозирования с использованием обученной модели и само обучение часто невозможно с вычислительной точки зрения, поэтому используются приближенные методы вывода и обучения.
Приложения [ править ]
Например, проблема перевода предложения на естественном языке в синтаксическое представление, такое как дерево синтаксического анализа, может рассматриваться как проблема структурированного прогнозирования [3], в которой структурированная область вывода представляет собой набор всех возможных деревьев синтаксического анализа. Структурированное прогнозирование также используется в широком спектре прикладных областей, включая биоинформатику , обработку естественного языка , распознавание речи и компьютерное зрение .
Пример: тегирование последовательности [ править ]
Маркировка последовательностей - это класс проблем, распространенных при обработке естественного языка , когда входными данными часто являются последовательности (например, предложения текста). Проблема маркировки последовательностей проявляется в нескольких обличьях, например, при маркировке части речи и распознавании именованных объектов . Например, в POS-тегах каждое слово в последовательности должно получать «тег» (метку класса), который выражает его «тип» слова:
Этот DT является ВБЗ а DT отмечен JJ приговор NN . .
Основная задача этой проблемы - устранить двусмысленность : слово «предложение» также может быть глаголом в английском языке, как и «тегированный».
Хотя эта проблема может быть решена путем простого выполнения классификации отдельных токенов, этот подход не принимает во внимание эмпирический факт, что теги не возникают независимо; вместо этого каждый тег демонстрирует сильную условную зависимость от тега предыдущего слова. Этот факт можно использовать в модели последовательности, такой как скрытая марковская модель или условное случайное поле [3], которое предсказывает всю последовательность тегов для предложения, а не только отдельные теги, с помощью алгоритма Витерби .
Методы [ править ]
Вероятностные графические модели образуют большой класс моделей структурированного прогнозирования. В частности, популярны байесовские сети и случайные поля . Другие алгоритмы и модели для структурированного прогнозирования включают индуктивное логическое программирование , рассуждения на основе случаев , структурированные SVM , логические сети Маркова и условные модели с ограничениями . Основные приемы:
- Условное случайное поле
- Структурированная опорная векторная машина
- Структурированные k-ближайшие соседи
- Рекуррентная нейронная сеть , в частности сеть Эльмана
Структурированный перцептрон [ править ]
Один из самых простых способов понять алгоритмы общего структурированного прогнозирования - это структурированный перцептрон Коллинза . [4] Этот алгоритм объединяет алгоритм персептрона для обучения линейных классификаторов с алгоритмом вывода (классическим алгоритмом Витерби при использовании с данными последовательности) и может быть описан абстрактно следующим образом. Сначала определите «функцию совместной функции» Φ ( x , y ), которая отображает обучающую выборку x и прогнозирование кандидата y на вектор длины n ( x и y могут иметь любую структуру; nзависит от проблемы, но должен быть исправлен для каждой модели). Пусть GEN будет функцией, которая генерирует предсказания кандидатов. Потом:
- Пусть - весовой вектор длины n
- Для заранее определенного количества итераций:
- Для каждого образца в обучающем наборе с истинным выходом :
- Сделать прогноз
- Обновление от до : , является скорость обучения
На практике поиск argmax over будет выполняться с использованием такого алгоритма, как Витерби, или алгоритма, такого как max-sum , а не путем исчерпывающего поиска по экспоненциально большому набору кандидатов.
Идея обучения похожа на мультиклассовый персептрон .
Ссылки [ править ]
- ^ Гекхан Бакир, Бен Таскар, Томас Хофманн, Бернхард Шёлкопф, Алекс Смола и SVN Вишванатан (2007), Прогнозирование структурированных данных , MIT Press.
- ^ Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2021). «Быстрые темпы в структурированном прогнозировании». CoRR . arXiv : 2102.00760 .
- ^ a b Лафферти, Дж., МакКаллум, А., Перейра, Ф. (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательности» (PDF) . Proc. 18-я Международная конф. по машинному обучению . С. 282–289. CS1 maint: uses authors parameter (link)
- ^ Коллинз, Майкл (2002). Дискриминационные методы обучения скрытых марковских моделей: теория и эксперименты с алгоритмами персептрона (PDF) . Proc. ЕМНЛП. 10 .
- Ной Смит, Прогнозирование лингвистической структуры , 2011.
- Майкл Коллинз, Дискриминационные методы обучения для скрытых марковских моделей , 2002.
Внешние ссылки [ править ]
- Реализация структурированного перцептрона Коллинза