Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Обучение модели действий (иногда сокращенно обучение действиям ) - это область машинного обучения, связанная с созданием и модификацией знаний программного агента об эффектах и предварительных условиях действий, которые могут быть выполнены в его среде . Эти знания обычно представлены на языке описания действий, основанном на логике, и используются в качестве входных данных для автоматизированных планировщиков .

При изменении целей важно изучать модели действий. Когда агент какое-то время действовал, он может использовать накопленные знания о действиях в домене для принятия лучших решений. Таким образом, модели обучающих действий отличаются от обучения с подкреплением . Это позволяет рассуждать о действиях, а не о дорогостоящих испытаниях в мире. [1] Обучение модели действия - это форма индуктивного рассуждения , при которой новые знания генерируются на основе наблюдений агента . Он отличается от стандартного обучения с учителем тем, что правильные пары ввода / вывода никогда не представлены, а неточные модели действий явно не исправлены.

Обычной мотивацией для изучения моделей действий является тот факт, что ручное определение моделей действий для планировщиков часто является сложной, трудоемкой и подверженной ошибкам задачей (особенно в сложных средах).

Модели действий [ править ]

Учитывая обучающий набор, состоящий из примеров , где представлены наблюдения за мировым состоянием на двух последовательных временных шагах и является экземпляром действия, наблюдаемым на временном шаге , цель обучения модели действия в целом состоит в построении модели действия , где есть описание динамика предметной области в формализме описания действий, таком как STRIPS , ADL или PDDL, и представляет собой функцию вероятности, определенную над элементами . [2] Однако многие современные методы обучения действиям предполагают детерминизм и не вызывают . Помимо детерминизма, отдельные методы различаются тем, как они работают с другими атрибутами предметной области (например, частичная наблюдаемость или сенсорный шум).

Методы обучения действиям [ править ]

Современное состояние [ править ]

Современные методы обучения действиям используют различные подходы и используют широкий спектр инструментов из различных областей искусственного интеллекта и вычислительной логики . В качестве примера метода, основанного на логике высказываний, можно упомянуть алгоритм SLAF (одновременное обучение и фильтрацию) [1], который использует наблюдения агента для построения длинной пропозициональной формулы с течением времени и впоследствии интерпретирует ее с помощью решателя выполнимости (SAT) . Другой метод, в котором обучение преобразуется в задачу выполнимости ( в данном случае взвешенный MAX-SAT ) и используются решатели SAT, реализован в ARMS (Система моделирования отношений действий). [3]Два взаимно похожих, полностью декларативных подхода к обучению действиям были основаны на парадигме логического программирования « Программирование набора ответов» (ASP) [4] и ее расширении, Reactive ASP. [5] В другом примере использовался восходящий подход индуктивного логического программирования . [6] Несколько различных решений не основаны непосредственно на логике. Например, обучение модели действия с использованием алгоритма персептрона [7] или многоуровневый жадный поиск по пространству возможных моделей действий. [8] В более ранней статье 1992 г. [9] обучение модели действия рассматривалось как расширение обучения с подкреплением..

Литература [ править ]

Большинство исследовательских работ по практическому обучению публикуется в журналах и на конференциях, посвященных искусственному интеллекту в целом (например, Журнал исследований искусственного интеллекта (JAIR), искусственного интеллекта, прикладного искусственного интеллекта (AAI) или конференций AAAI). Несмотря на взаимную актуальность тем, изучение моделей действий обычно не рассматривается на конференциях по планированию, таких как ICAPS.

См. Также [ править ]

  • Машинное обучение
  • Автоматизированное планирование и составление графиков
  • Язык действия
  • PDDL
  • Язык описания архитектуры
  • Индуктивное мышление
  • Вычислительная логика
  • Представление знаний

Ссылки [ править ]

  1. ^ а б Амир, Эяль; Чанг, Аллен (2008). «Изучение частично наблюдаемых детерминированных моделей действия» . Журнал исследований искусственного интеллекта . 33 : 349–402. arXiv : 1401.3437 . DOI : 10.1613 / jair.2575 .
  2. ^ Čertický, Михал (2014). "Обучение модели действий в реальном времени с помощью онлайн-алгоритма 3SG". Прикладной искусственный интеллект . 28 (7): 690–711. DOI : 10.1080 / 08839514.2014.927692 .
  3. ^ Ян, Цян; Канхенг, Ву; Юньфэй, Цзян (2007). «Изучение моделей действий на основе примеров планов с использованием взвешенного MAX-SAT» . Искусственный интеллект . 171 (2–3): 107–143. DOI : 10.1016 / j.artint.2006.11.005 .
  4. ^ Balduccini, Марсело (2007). «Описание действий обучения с помощью A-Prolog: язык действий C» . Весенний симпозиум AAAI: логические формализации здравого смысла : 13–18.
  5. ^ Čertický, Михал (2012). Обучение действиям с программированием набора реактивных ответов: предварительный отчет . ICAS 2012, Восьмая международная конференция по автономным и автономным системам . С. 107–111. ISBN 9781612081878.
  6. ^ Бенсон, Скотт (1995). «Индуктивное обучение моделей реактивного действия». Машинное обучение: материалы Двенадцатой международной конференции (ICML) .
  7. ^ Моурао, Кира; Петрик, Рональд; Стидман, Марк (2010). «Эффекты обучающего действия в частично наблюдаемых областях» . Границы в области искусственного интеллекта и приложений . 215 (ECAI 2010): 973–974. DOI : 10.3233 / 978-1-60750-606-5-973 .
  8. ^ Zettlemoyer, Люк; Пасула, Ханна; Кельблин, Лесли Пэк (2005). «Обучение правилам планирования в шумных стохастических мирах» . AAAI : 911–918.
  9. Перейти ↑ Lin, Long-Ji (1992). «Самосовершенствующиеся реактивные агенты, основанные на обучении с подкреплением, планировании и обучении» . Машинное обучение . 8 (3–4): 293–321. DOI : 10,1023 / A: 1022628806385 .