Обучение модели действия

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Статьи по Теме Глоссарий искусственного интеллекта Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

Обучение модели действий (иногда сокращенно обучение действиям ) - это область машинного обучения, связанная с созданием и модификацией знаний программного агента об эффектах и предварительных условиях действий, которые могут быть выполнены в его среде . Эти знания обычно представлены на языке описания действий, основанном на логике, и используются в качестве входных данных для автоматизированных планировщиков .

При изменении целей важно изучать модели действий. Когда агент какое-то время действовал, он может использовать накопленные знания о действиях в домене для принятия лучших решений. Таким образом, модели обучающих действий отличаются от обучения с подкреплением . Это позволяет рассуждать о действиях, а не о дорогостоящих испытаниях в мире. ^[1] Обучение модели действия - это форма индуктивного рассуждения , при которой новые знания генерируются на основе наблюдений агента . Он отличается от стандартного обучения с учителем тем, что правильные пары ввода / вывода никогда не представлены, а неточные модели действий явно не исправлены.

Обычной мотивацией для изучения моделей действий является тот факт, что ручное определение моделей действий для планировщиков часто является сложной, трудоемкой и подверженной ошибкам задачей (особенно в сложных средах).

Модели действий [ править ]

Учитывая обучающий набор, состоящий из примеров , где представлены наблюдения за мировым состоянием на двух последовательных временных шагах и является экземпляром действия, наблюдаемым на временном шаге , цель обучения модели действия в целом состоит в построении модели действия , где есть описание динамика предметной области в формализме описания действий, таком как STRIPS , ADL или PDDL, и представляет собой функцию вероятности, определенную над элементами . ^[2] Однако многие современные методы обучения действиям предполагают детерминизм и не вызывают ${\ displaystyle E}$ ${\ Displaystyle е = (s, a, s ')}$ ${\ displaystyle s, s '}$ ${\ displaystyle t, t '}$ ${\ displaystyle a}$ ${\ displaystyle t}$ ${\ displaystyle \ langle D, P \ rangle}$ ${\ displaystyle D}$ ${\ displaystyle P}$ ${\ displaystyle D}$ ${\ displaystyle P}$ . Помимо детерминизма, отдельные методы различаются тем, как они работают с другими атрибутами предметной области (например, частичная наблюдаемость или сенсорный шум).

Методы обучения действиям [ править ]

Современное состояние [ править ]

Современные методы обучения действиям используют различные подходы и используют широкий спектр инструментов из различных областей искусственного интеллекта и вычислительной логики . В качестве примера метода, основанного на логике высказываний, можно упомянуть алгоритм SLAF (одновременное обучение и фильтрацию) ^[1], который использует наблюдения агента для построения длинной пропозициональной формулы с течением времени и впоследствии интерпретирует ее с помощью решателя выполнимости (SAT) . Другой метод, в котором обучение преобразуется в задачу выполнимости ( в данном случае взвешенный MAX-SAT ) и используются решатели SAT, реализован в ARMS (Система моделирования отношений действий). ^[3]Два взаимно похожих, полностью декларативных подхода к обучению действиям были основаны на парадигме логического программирования « Программирование набора ответов» (ASP) ^[4] и ее расширении, Reactive ASP. ^[5] В другом примере использовался восходящий подход индуктивного логического программирования . ^[6] Несколько различных решений не основаны непосредственно на логике. Например, обучение модели действия с использованием алгоритма персептрона ^[7] или многоуровневый жадный поиск по пространству возможных моделей действий. ^[8] В более ранней статье 1992 г. ^[9] обучение модели действия рассматривалось как расширение обучения с подкреплением..

Литература [ править ]

Большинство исследовательских работ по практическому обучению публикуется в журналах и на конференциях, посвященных искусственному интеллекту в целом (например, Журнал исследований искусственного интеллекта (JAIR), искусственного интеллекта, прикладного искусственного интеллекта (AAI) или конференций AAAI). Несмотря на взаимную актуальность тем, изучение моделей действий обычно не рассматривается на конференциях по планированию, таких как ICAPS.

См. Также [ править ]

Машинное обучение
Автоматизированное планирование и составление графиков
Язык действия
PDDL
Язык описания архитектуры
Индуктивное мышление
Вычислительная логика
Представление знаний

Ссылки [ править ]

^ а б Амир, Эяль; Чанг, Аллен (2008). «Изучение частично наблюдаемых детерминированных моделей действия» . Журнал исследований искусственного интеллекта . 33 : 349–402. arXiv : 1401.3437 . DOI : 10.1613 / jair.2575 .
^ Čertický, Михал (2014). "Обучение модели действий в реальном времени с помощью онлайн-алгоритма 3SG". Прикладной искусственный интеллект . 28 (7): 690–711. DOI : 10.1080 / 08839514.2014.927692 .
^ Ян, Цян; Канхенг, Ву; Юньфэй, Цзян (2007). «Изучение моделей действий на основе примеров планов с использованием взвешенного MAX-SAT» . Искусственный интеллект . 171 (2–3): 107–143. DOI : 10.1016 / j.artint.2006.11.005 .
^ Balduccini, Марсело (2007). «Описание действий обучения с помощью A-Prolog: язык действий C» . Весенний симпозиум AAAI: логические формализации здравого смысла : 13–18.
^ Čertický, Михал (2012). Обучение действиям с программированием набора реактивных ответов: предварительный отчет . ICAS 2012, Восьмая международная конференция по автономным и автономным системам . С. 107–111. ISBN 9781612081878.
^ Бенсон, Скотт (1995). «Индуктивное обучение моделей реактивного действия». Машинное обучение: материалы Двенадцатой международной конференции (ICML) .
^ Моурао, Кира; Петрик, Рональд; Стидман, Марк (2010). «Эффекты обучающего действия в частично наблюдаемых областях» . Границы в области искусственного интеллекта и приложений . 215 (ECAI 2010): 973–974. DOI : 10.3233 / 978-1-60750-606-5-973 .
^ Zettlemoyer, Люк; Пасула, Ханна; Кельблин, Лесли Пэк (2005). «Обучение правилам планирования в шумных стохастических мирах» . AAAI : 911–918.
Перейти ↑ Lin, Long-Ji (1992). «Самосовершенствующиеся реактивные агенты, основанные на обучении с подкреплением, планировании и обучении» . Машинное обучение . 8 (3–4): 293–321. DOI : 10,1023 / A: 1022628806385 .

[amir2008-1] а б Амир, Эяль; Чанг, Аллен (2008). «Изучение частично наблюдаемых детерминированных моделей действия» . Журнал исследований искусственного интеллекта . 33 : 349–402. arXiv : 1401.3437 . DOI : 10.1613 / jair.2575 .

[certicky2013-2] Čertický, Михал (2014). "Обучение модели действий в реальном времени с помощью онлайн-алгоритма 3SG". Прикладной искусственный интеллект . 28 (7): 690–711. DOI : 10.1080 / 08839514.2014.927692 .

[yang2007-3] Ян, Цян; Канхенг, Ву; Юньфэй, Цзян (2007). «Изучение моделей действий на основе примеров планов с использованием взвешенного MAX-SAT» . Искусственный интеллект . 171 (2–3): 107–143. DOI : 10.1016 / j.artint.2006.11.005 .

[4] Balduccini, Марсело (2007). «Описание действий обучения с помощью A-Prolog: язык действий C» . Весенний симпозиум AAAI: логические формализации здравого смысла : 13–18.

[5] Čertický, Михал (2012). Обучение действиям с программированием набора реактивных ответов: предварительный отчет . ICAS 2012, Восьмая международная конференция по автономным и автономным системам . С. 107–111. ISBN 9781612081878.

[6] Бенсон, Скотт (1995). «Индуктивное обучение моделей реактивного действия». Машинное обучение: материалы Двенадцатой международной конференции (ICML) .

[7] Моурао, Кира; Петрик, Рональд; Стидман, Марк (2010). «Эффекты обучающего действия в частично наблюдаемых областях» . Границы в области искусственного интеллекта и приложений . 215 (ECAI 2010): 973–974. DOI : 10.3233 / 978-1-60750-606-5-973 .

[8] Zettlemoyer, Люк; Пасула, Ханна; Кельблин, Лесли Пэк (2005). «Обучение правилам планирования в шумных стохастических мирах» . AAAI : 911–918.

[9] Перейти ↑ Lin, Long-Ji (1992). «Самосовершенствующиеся реактивные агенты, основанные на обучении с подкреплением, планировании и обучении» . Машинное обучение . 8 (3–4): 293–321. DOI : 10,1023 / A: 1022628806385 .