Metalearning (нейробиология)

Метаобразование - это нейробиологический термин, предложенный Кенджи Дойя ^[1] в качестве теории того, как нейротрансмиттеры способствуют распределенным механизмам обучения в базальных ганглиях . Теория в первую очередь включает роль нейротрансмиттеров в динамической корректировке способа взаимодействия вычислительных алгоритмов обучения ^[2] для создания видов устойчивого обучающего поведения, уникального в настоящее время для биологических форм жизни. ^[3] «Мета-обучение» ранее применялось в области социальной психологии и информатики, но в этом контексте существует совершенно новая концепция.

Теория метаобучения основывается на более ранней работе Дойи в алгоритмах обучения контролируемого обучения , обучения с подкреплением и неконтролируемого обучения в мозжечке , базальных ганглиях и коре головного мозга соответственно. ^[4] Теория возникла в результате усилий по унификации процесса динамического отбора для этих трех алгоритмов обучения в регуляторный механизм, сводимый к отдельным нейротрансмиттерам.

Роль нейромодуляторов

Допамин

Предполагается, что дофамин действует как сигнал «глобального обучения», имеющий решающее значение для прогнозирования вознаграждений и подкрепления действий . Таким образом, дофамин участвует в алгоритме обучения, в котором Актер, Окружающая среда и Критик связаны динамическим взаимодействием, которое в конечном итоге стремится максимизировать сумму будущих вознаграждений за счет выработки оптимальной политики выбора действий . В этом контексте Критик и Действующий субъект характеризуются как независимые границы сети, которые также образуют одного Комплексного агента. Этот агент коллективно влияет на информационное состояние среды, которое возвращается агенту для будущих вычислений. Отдельным путем Окружающая среда также возвращается критику в виде вознаграждения, полученного за данное действие, что означает, что может быть достигнуто равновесие между прогнозируемым вознаграждением данной политики для данного состояния и развивающейся перспективой будущих вознаграждений.

Серотонин

Серотонин предлагается для контроля баланса между краткосрочным и долгосрочным прогнозом вознаграждения, по существу, путем переменного «дисконтирования» ожидаемых будущих сумм вознаграждения, для достижения которых может потребоваться слишком много затрат. Таким образом, серотонин может способствовать ожиданию вознаграждения на квазиэмоциональном уровне и, таким образом, либо поощрять, либо препятствовать настойчивости в стремлении к вознаграждению в зависимости от требований задачи и продолжительности требуемой настойчивости. Поскольку глобальное предсказание вознаграждения теоретически могло бы быть результатом вычислений с модуляцией серотонина, достигающих устойчивого состояния с расчетами, аналогичным образом модулированными дофамином ; высокий уровень серотонинергической передачи сигналов может перекрыть вычисления дофамина и создать дивергентную парадигму вознаграждения, которая не является математически жизнеспособной только с помощью вычислений с модуляцией дофамина.

Норэпинефрин

Норэпинефрин предлагается для облегчения «широкого исследования» путем выбора стохастического действия . Выбор между сосредоточением внимания на известных эффективных стратегиях или выбором новых экспериментальных стратегий известен в теории вероятностей как проблема разведки-эксплуатации . ^[5] Взаимодействие между ситуативной срочностью и эффективностью известных стратегий, таким образом, влияет на дилемму между надежным отбором для наибольшего предсказанного вознаграждения и исследовательским отбором за пределами известных параметров. Поскольку каскады возбуждения нейронов (например, те, которые необходимы для идеального поворота клюшки) по определению нестабильны и подвержены изменениям; Таким образом, норэпинефрин выбирает наиболее надежный из известных шаблонов выполнения на более высоких уровнях и допускает более случайный и ненадежный выбор на низких уровнях с целью потенциально обнаружения более эффективных стратегий в процессе.

Ацетилхолин

Ацетилхолин предлагается для облегчения баланса между хранением и обновлением памяти, ^[6] находя оптимальный баланс между стабильностью и эффективностью алгоритмов обучения для конкретной экологической задачи. Таким образом , ацетилхолин модулирует пластичность в гиппокампе , кора головного мозга и стриатуме , чтобы облегчить идеальные условия для обучения в головном мозге. Таким образом, высокие уровни ацетилхолина позволили бы очень быстро обучаться и ремоделировать синаптические связи, в результате чего существующее обучение может быть отменено. Точно так же обучение состояний, которое происходит в расширенном временном разрешении, может быть отменено до того, как оно достигнет функционального уровня, и, таким образом, обучение может происходить слишком быстро, чтобы его можно было действительно выполнять эффективно. Предполагается, что при более низких уровнях норэпинефрина пластические изменения происходят намного медленнее, потенциально защищая от бесполезных условий обучения или позволяя изменениям информации воплощать гораздо более широкое временное разрешение.

Metalearning

Центральная идея Metalearning состоит в том, что глобальное обучение можно моделировать как функцию эффективного выбора этих четырех нейромодуляторов . Хотя не предлагается никакой механистической модели для определения того, где в конечном итоге существует метаобучение в иерархии агентств , модель до сих пор демонстрировала динамику, необходимую для вывода о существовании такого агента в биологическом обучении в целом. Хотя вычислительные модели и информационные системы все еще далеки от сложности человеческого обучения; Мета-обучение открывает многообещающий путь для будущей эволюции таких систем, поскольку они все больше приближаются к сложности биологического мира.

Возможные приложения

Исследование метаобучения как нейробиологической концепции имеет потенциальные преимущества как для понимания и лечения психических заболеваний , так и для устранения разрыва между нейронными сетями , информатикой и машинным обучением . ^[7]

Внешние ссылки

Отделение нейронных вычислений в Окинавском институте науки и технологий
Проект нейронных вычислений в группе лаборатории исследований мозговой информации ATR

[1] Doya , К. (2002). «Мета-обучение и нейромодуляция». Нейронные сети . 15 (4–6): 495–506. DOI : 10.1016 / S0893-6080 (02) 00044-8 . PMID 12371507 .

[2] Дойя , К. (1999). «Каковы вычисления мозжечка, базальных ганглиев и коры головного мозга?». Нейронные сети . 12 (7–8): 961–974. DOI : 10.1016 / S0893-6080 (99) 00046-5 . PMID 12662639 .

[3] Дойя , К. (2000). «Метаобразование, нейромодуляция и эмоции» (PDF) . Аффективные умы. Архивировано из оригинального (PDF) 21 февраля 2007 года . Проверено 4 августа 2013 .

[4] Дойя , К. (1999). «Каковы вычисления мозжечка, базальных ганглиев и коры головного мозга?». Нейронные сети . 12 (7–8): 961–974. DOI : 10.1016 / S0893-6080 (99) 00046-5 . PMID 12662639 .

[5] Ашер ; и другие. (1999). «Роль голубого пятна в регуляции когнитивной деятельности» . Наука . Проверено 4 августа 2013 . Цитировать журнал требует |journal=( помощь )

[6] Хассельмо , Майкл (1993). «Ацетилхолин и память». Тенденции в неврологии . 16 (6): 218–222. DOI : 10.1016 / 0166-2236 (93) 90159-J . PMID 7688162 .

[7] Дойя , К. (2002). «Мета-обучение и нейромодуляция» . Нейронные сети . Проверено 4 августа 2013 .

[1]