Автономное обучение

В машинном обучении системы, использующие автономное обучение, не изменяют свою аппроксимацию целевой функции после завершения начальной фазы обучения. ^{[ необходима цитата ]} Эти системы также обычно являются примерами активного обучения . ^{[ необходима цитата ]}

В то время как в онлайн-обучении известен только набор возможных элементов, в автономном обучении учащемуся известны идентичность элементов, а также порядок, в котором они представлены. ^[1]

Приложения для управления робототехникой

Способность роботов к обучению приравнивается к созданию таблицы (информации), заполненной значениями. Один из вариантов - демонстрационное программирование . Здесь таблица значений заполнена учителем-человеком. Демонстрация предоставляется либо как прямая политика числового управления, которая равна траектории, либо как косвенная целевая функция, которая задается заранее. ^[2]

Автономное обучение работает в пакетном режиме . На шаге 1 задача демонстрируется и сохраняется в таблице, а на шаге 2 задача воспроизводится роботом. ^[3] Конвейер медленный и неэффективный, потому что существует задержка между демонстрацией поведения и воспроизведением навыков. ^[4]^[5]

Краткий пример поможет понять идею. Предположим, робот должен изучить стену, следуя задаче, а внутренняя таблица робота пуста. Прежде чем робот активируется в режиме воспроизведения, человек-демонстратор должен обучить его поведению. Он управляет роботом с помощью дистанционного управления, и на этапе обучения создается таблица навыков. Этот процесс называется автономным, потому что программное обеспечение для управления роботом ничего не делает, но устройство используется человеком-оператором в качестве указательного устройства для движения по стене. ^[5]

Смотрите также

Онлайн-обучение , противоположная модель
Пошаговое обучение , модель обучения для постепенного расширения знаний

Рекомендации

↑ Бен-Давид, Шай; Кушилевиц, Эяль; Мансур, Ишай (1 октября 1997 г.). «Онлайн-обучение против автономного обучения» . Машинное обучение . 29 (1): 45–63. DOI : 10,1023 / A: 1007465907571 . ISSN 0885-6125 .
^ Байчи, Андреа и Лоузи, Дилан П. и О'Мэлли, Марсия К. и Драган, Анка Д. (2017). «Изучение целей робота на основе физического взаимодействия с человеком». Труды исследований машинного обучения . PMLR. 78 : 217–226.CS1 maint: несколько имен: список авторов ( ссылка )
^ Мейер-Делиус, Даниэль и Байнхофер, Максимилиан и Бургард, Вольфрам (2012). Сеточные модели занятости для картографирования роботов в меняющихся условиях . Двадцать шестая конференция AAAI по искусственному интеллекту.CS1 maint: несколько имен: список авторов ( ссылка )
^ Лука Петернель, Эрхан Озтоп и Ян Бабич (2016). Общий метод управления для онлайн-обучения роботов в режиме реального времени, основанный на локально взвешенной регрессии . Международная конференция IEEE / RSJ по интеллектуальным роботам и системам (IROS), 2016 г. IEEE. DOI : 10.1109 / iros.2016.7759574 .
^ ^а ^б Джун, Ли и Дакетт, Том (2003). Обучение поведению роботов с помощью динамически адаптирующейся сети RBF: эксперименты в автономном и онлайн-обучении . Proc. 2 Междунар. Конф. на вычисл. Интеллект, робототехника и автономные системы, CIRAS. Citeseer.CS1 maint: несколько имен: список авторов ( ссылка )

Эта статья о компьютерах - незавершенная . Вы можете помочь Википедии, расширив ее .

[1] Бен-Давид, Шай; Кушилевиц, Эяль; Мансур, Ишай (1 октября 1997 г.). «Онлайн-обучение против автономного обучения» . Машинное обучение . 29 (1): 45–63. DOI : 10,1023 / A: 1007465907571 . ISSN 0885-6125 .

[2] Байчи, Андреа и Лоузи, Дилан П. и О'Мэлли, Марсия К. и Драган, Анка Д. (2017). «Изучение целей робота на основе физического взаимодействия с человеком». Труды исследований машинного обучения . PMLR. 78 : 217–226.CS1 maint: несколько имен: список авторов ( ссылка )

[3] Мейер-Делиус, Даниэль и Байнхофер, Максимилиан и Бургард, Вольфрам (2012). Сеточные модели занятости для картографирования роботов в меняющихся условиях . Двадцать шестая конференция AAAI по искусственному интеллекту.CS1 maint: несколько имен: список авторов ( ссылка )

[4] Лука Петернель, Эрхан Озтоп и Ян Бабич (2016). Общий метод управления для онлайн-обучения роботов в режиме реального времени, основанный на локально взвешенной регрессии . Международная конференция IEEE / RSJ по интеллектуальным роботам и системам (IROS), 2016 г. IEEE. DOI : 10.1109 / iros.2016.7759574 .

[Jun2003-5] а ^б Джун, Ли и Дакетт, Том (2003). Обучение поведению роботов с помощью динамически адаптирующейся сети RBF: эксперименты в автономном и онлайн-обучении . Proc. 2 Междунар. Конф. на вычисл. Интеллект, робототехника и автономные системы, CIRAS. Citeseer.CS1 maint: несколько имен: список авторов ( ссылка )

[1]