Внутренняя мотивация в изучении искусственного интеллекта и робототехники - это механизм, позволяющий искусственным агентам (включая роботов ) проявлять положительное поведение, такое как исследование и любопытство, сгруппированные под одним и тем же термином при изучении психологии . Психологи считают, что внутренняя мотивация человека - это стремление выполнять деятельность для внутреннего удовлетворения - просто для развлечения или для вызова. [1]
Определение
Интеллектуальный агент внутренне мотивирован , чтобы действовать , если содержание информации в одиночку, опыта в результате действий, является стимулирующим фактором.
Информационное содержание в этом контексте измеряется в теоретико-информационном смысле количественной оценки неопределенности. Типичная внутренняя мотивация - это поиск необычных, неожиданных ситуаций (исследование), в отличие от типичной внешней мотивации, такой как поиск пищи (гомеостаз). [2] Внешние мотивы , как правило , описаны в области искусственного интеллекта , как задача-зависимой или целенаправленный .
Истоки в психологии
Изучение внутренней мотивации в психологии и нейробиологии началось в 1950-х годах, когда некоторые психологи объяснили исследование стремлением манипулировать и исследовать, однако этот гомеостатический взгляд подвергся критике со стороны Уайта. [3] Альтернативным объяснением Берлина в 1960 году было стремление к оптимальному балансу между новизной и знакомством. [4] Фестингер описал разницу между внутренним и внешним взглядом на мир как диссонанс, который организмы стремятся уменьшить. [5] Похожая точка зрения была выражена в 70-х годах Каганом как желание уменьшить несовместимость между когнитивной структурой и опытом. [6] В отличие от идеи оптимального несоответствия, Деси и Райан в середине 80-х определили внутреннюю мотивацию, основанную на компетентности и самоопределении. [7]
Вычислительные модели
Влиятельный ранний вычислительный подход к реализации искусственного любопытства в начале 1990-х Шмидхубером с тех пор превратился в «Формальную теорию творчества, веселья и внутренней мотивации» [8].
Внутренняя мотивация часто изучается в рамках вычислительного обучения с подкреплением [9] [10] (введенного Саттоном и Барто ), где вознаграждения, которые стимулируют поведение агентов, являются внутренними производными, а не внешними, и должны извлекаться из окружающей среды. [11] Обучение с подкреплением не зависит от того, как генерируется вознаграждение - агент будет изучать политику (стратегию действий) на основе распределения вознаграждений, предоставляемых действиями и окружающей средой. Каждый подход к внутренней мотивации в этой схеме - это, по сути, разные способы создания функции вознаграждения для агента.
Любопытство против исследования
Внутренне мотивированные искусственные агенты демонстрируют поведение, напоминающее любопытство или исследование . Исследования в области искусственного интеллекта и робототехники широко изучались в моделях обучения с подкреплением [12], обычно путем поощрения агента к исследованию как можно большей части среды, чтобы уменьшить неопределенность в динамике среды (изучение функции перехода) и того, как лучше всего для достижения своих целей (изучение функции вознаграждения). Внутренняя мотивация, напротив, побуждает агента сначала исследовать аспекты окружающей среды, которые предоставляют больше информации, искать новизну. Недавняя работа, объединяющая исследование количества посещений штата и внутренней мотивации, показала более быстрое обучение в условиях видеоигры. [13]
Типы моделей
Уэдейер и Каплан внесли существенный вклад в изучение внутренней мотивации. [14] [2] [15] Они определяют внутреннюю мотивацию на основе теории Берлина [4] и разделяют подходы к реализации внутренней мотивации на три категории, которые в целом следуют корням психологии: «модели, основанные на знаниях», «компетентность». модели на основе "и" морфологические модели ". [2] Модели, основанные на знаниях, подразделяются на «теоретико-информационные» и «прогнозные». [15] Бальдассаре и Миролли представляют аналогичную типологию, разделяя модели, основанные на знаниях, на модели, основанные на прогнозировании и основанные на новизне. [16]
Теоретико-информационная внутренняя мотивация
Количественная оценка прогноза и новизны для управления поведением обычно обеспечивается за счет применения теоретико-информационных моделей, в которых состояние и стратегия (политика) агента во времени представлены распределениями вероятностей, описывающими процесс принятия марковского решения и цикл восприятия и действия, рассматриваемый как информационный канал. [17] [18] Эти подходы претендуют на биологическую осуществимость как часть семейства байесовских подходов к функции мозга . Основная критика и сложность этих моделей заключается в невозможности вычисления распределений вероятностей в больших дискретных или непрерывных пространствах состояний. [2] Тем не менее значительный объем работы накопила моделирование потока информации вокруг цикла сенсомоторного, что приводит к де - факто вознаграждение функциям , полученным в результате уменьшения неопределенности, в том числе в первую очередь активных умозаключений , [19] , но и infotaxis , [20 ] прогнозная информация , [21] [22] полномочия . [23]
Модели, основанные на компетенциях
Автотелический принцип Стали [24] - это попытка формализовать поток (психологию) . [25]
Внутренне мотивированное обучение
Внутренне мотивированное (или движимое любопытством) обучение - это новая тема исследований в области искусственного интеллекта и развивающей робототехники [26] , направленная на разработку агентов, которые могут изучать общие навыки или поведение, которые можно использовать для повышения производительности при выполнении внешних задач, таких как приобретение Ресурсы. [27] Внутренне мотивированное обучение изучается как подход к автономному обучению на протяжении всей жизни в машинах. [28] [29] Несмотря на впечатляющий успех глубокого обучения в конкретных областях (например, AlphaGo ), многие специалисты в этой области (например, Гэри Маркус ) отметили, что способность к обобщениям остается фундаментальной проблемой для искусственного интеллекта. Внутренне мотивированное обучение, хотя и многообещающее с точки зрения способности генерировать цели из структуры среды без навязанных извне задач, сталкивается с той же проблемой обобщения - как повторно использовать политики или последовательности действий, как сжимать и представлять непрерывные или сложные пространства состояний и сохранить и повторно использовать основные особенности, которые были изучены. [27]
Смотрите также
- обучение с подкреплением
- Марковский процесс принятия решений
- мотивация
- прогнозирующее кодирование
- теория перцептивного управления
Рекомендации
- ^ Райан, Ричард М; Деци, Эдвард Л. (2000). «Внутренние и внешние мотивации: классические определения и новые направления». Современная педагогическая психология . 25 (1): 54–67. DOI : 10,1006 / ceps.1999.1020 . PMID 10620381 .
- ^ а б в г Аудейер, Пьер-Ив; Каплан, Фредерик (2008). «Как мы можем определить внутреннюю мотивацию?». Proc. 8-й конф. по эпигенетической робототехнике . 5 . С. 29–31.
- ^ Уайт, Р. (1959). «Мотивация по-новому: понятие компетентности». Психологический обзор . 66 (5): 297–333. DOI : 10.1037 / h0040934 . PMID 13844397 .
- ^ a b Берлин, Д .: Конфликт, возбуждение и любопытство. Макгроу-Хилл, Нью-Йорк (1960)
- ^ Фестингер, Л .: Теория когнитивного диссонанса. Эванстон, Роу, Петерсон (1957)
- ^ Каган, Дж .: Мотивы и развитие. Журнал личности и социальной психологии 22, 51–66.
- ^ Deci, EL, Ryan, RM: Внутренняя мотивация и самоопределение в человеческом поведении. Пленум, Нью-Йорк (1985)
- ^ Шмидхубер, Дж (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990-2010)». IEEE Trans. Auton. Mental Dev . 2 (3): 230–247. DOI : 10.1109 / TAMD.2010.2056368 .
- ^ Барто, А., Сингх, С., Чентанез, Н .: Внутренне мотивированное изучение иерархических наборов навыков. В: ICDL 2004. Труды 3-й Международной конференции по развитию и обучению, Институт Солка, Сан-Диего (2004).
- ^ Singh, S., Барто, А. Г. и Chentanez, N. (2005). Внутренне мотивированное обучение с подкреплением. В материалах 18-й ежегодной конференции по системам обработки нейронной информации (NIPS), Ванкувер, Британская Колумбия, Канада.
- ^ Барто, AG: Внутренняя мотивация и обучение с подкреплением. В: Baldassarre, G., Mirolli, M. (eds.) Внутренне мотивированное обучение в естественных и искусственных системах. Спрингер, Берлин (2012)
- ^ Thrun, SB (1992). Эффективное исследование в обучении с подкреплением. https://doi.org/10.1007/978-1-4899-7687-1_244
- ^ Бельмара, М., Сринивасан, С., Островский, Г., Schaul, Т., Сакстона Д., & Муньос, Р. (2016). Объединение исследований, основанных на подсчете, и внутренней мотивации. Достижения в системах обработки нейронной информации, 1479–1487.
- ^ Каплан, Ф. и Oudeyer, P. (2004). Максимальный прогресс в обучении: внутренняя система поощрений за развитие. Воплощенный искусственный интеллект, страницы 629–629.
- ^ a b Oudeyer, PY, & Kaplan, F. (2009). Что такое внутренняя мотивация? Типология вычислительных подходов. Границы нейроробототехники, 3 (ноябрь). https://doi.org/10.3389/neuro.12.006.2007
- ^ Бальдассар, Джанлука; Миролли, Марко (2013). «Внутренне мотивированные системы обучения: обзор». Внутренне мотивированное обучение в естественных 1 и искусственных системах . Рим, Италия: Springer. С. 1–14.
- ^ Klyubin А., Полани, Д. и Nehaniv, C. (2008). Держите ваши возможности открытыми: принцип управления сенсомоторными системами, основанный на информации. PLOS ONE, 3 (12): e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
- ^ Биль, Мартин; Гукельсбергер, Кристиан; Салге, Кристоф; Смит, Симон С .; Полани, Даниэль (2018). «Расширение ландшафта активного вывода: больше внутренних мотиваций в петле восприятия-действия» . Границы нейроробототехники . 12 : 45. arXiv : 1806.08083 . DOI : 10.3389 / fnbot.2018.00045 . ISSN 1662-5218 . PMC 6125413 . PMID 30214404 .
- ^ Фристон, Карл; Килнер, Джеймс; Харрисон, Ли (2006). «Принцип свободной энергии для мозга» (PDF) . Журнал физиологии-Париж . Elsevier BV. 100 (1–3): 70–87. DOI : 10.1016 / j.jphysparis.2006.10.001 . ISSN 0928-4257 . PMID 17097864 .
- ^ Vergassola, М., Villermaux, Е., & Shraiman, Б. (2007). «Инфотаксис» как стратегия поиска без градиентов. Природа, 445 (7126), 406–409. https://doi.org/10.1038/nature05464
- ↑ Ay, N., Bertschinger, N., Der, R., Güttler, F. и Olbrich, E. (2008), «Прогностическая информация и исследовательское поведение автономных роботов», The European Physical Journal B 63 (3), 329–339.
- Перейти ↑ Martius, G., Der, R., and Ay, N. (2013). Информационная самоорганизация сложных моделей поведения роботов. PLOS ONE 8: e63400. DOI: 10.1371 / journal.pone.0063400
- ^ Salge, C; Глакин, С; Полани, Д. (2014). «Расширение возможностей - Введение». В Прокопенко, М (ред.). Управляемая самоорганизация: начало. Возникновение, сложность и вычисление . 9 . Springer. С. 67–114. arXiv : 1310.1863 . DOI : 10.1007 / 978-3-642-53734-9_4 . ISBN 978-3-642-53733-2.
- ^ Стали, Люк: Автотелический принцип. В: Iida, F., Pfeifer, R., Steels, L., Kuniyoshi, Y. (ред.) Воплощенный искусственный интеллект. LNCS (LNAI), т. 3139, стр. 231–242. Спрингер, Гейдельберг (2004)
- ^ Csikszentmihalyi, М. (2000). За пределами скуки и беспокойства. Джосси-Басс.
- ^ Lungarella, М., Метта, Г. Пфайфер, Р. и сандхини, G. (2003). Развивающая робототехника: обзор. Соединять. Sci. 15, 151–190. DOI: 10.1080 / 09540090310001655110
- ^ a b Santucci, VG, Oudeyer, PY, Barto, A., & Baldassarre, G. (2020). От редакции: Внутренне мотивированное открытое обучение в автономных роботах. Frontiers in Neurorobotics, 13 (январь) 2019–2021 гг. https://doi.org/10.3389/fnbot.2019.00115
- Перейти ↑ Barto, AG (2013). «Внутренняя мотивация и обучение с подкреплением», в Inrinically Moved Learning in Natural and Artificial Systems (Берлин; Гейдельберг: Springer), 17–47.
- ^ Mirolli, М., Baldassarre, G. (2013). «Функции и механизмы внутренней мотивации», в «Внутренне мотивированное обучение в естественных и искусственных системах», ред. Г. Бальдассарр и М. Миролли (Берлин; Гейдельберг: Springer), 49–72.