Устойчивость к ошибкам (обучение PAC)

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Статьи по Теме Глоссарий искусственного интеллекта Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

Устойчивость к ошибкам (обучение PAC) [ править ]

В обучении РАС , толерантность ошибки относится к способности к алгоритму , чтобы узнать , когда примеры , полученные были повреждены в некотором роде. Фактически, это очень распространенная и важная проблема, поскольку во многих приложениях невозможно получить доступ к данным без шума. Шум может мешать процессу обучения на разных уровнях: алгоритм может получать данные, которые иногда были неправильно помечены, или входные данные могут содержать некоторую ложную информацию, или классификация примеров может быть злонамеренно фальсифицирована.

Нотация и модель обучения Valiant [ править ]

Далее пусть будет нашим -мерным входным пространством. Позвольте быть классом функций, которые мы хотим использовать, чтобы изучить определенную целевую функцию с определенным значением . Позвольте быть распределением входов по . Цель алгоритма обучения - выбрать лучшую функцию , минимизирующую ее . Предположим, у нас есть функция, которая может измерять сложность . Позвольте быть оракулом, который при каждом вызове возвращает пример и его правильную метку . ${\ displaystyle X}$ ${\ displaystyle n}$ ${\ displaystyle {\ mathcal {H}}}$ ${\ displaystyle \ {0,1 \}}$ ${\ displaystyle f}$ ${\ displaystyle X}$ ${\ displaystyle {\ mathcal {D}}}$ ${\ displaystyle X}$ ${\ displaystyle {\ mathcal {A}}}$ ${\ displaystyle h \ in {\ mathcal {H}}}$ ${\ displaystyle error (h) = P_ {x \ sim {\ mathcal {D}}} (h (x) \ neq f (x))}$ ${\ displaystyle size (f)}$ ${\ displaystyle f}$ ${\ displaystyle {\ text {Oracle}} (х)}$ ${\ displaystyle x}$ ${\ displaystyle f (x)}$

Если данные не искажаются никаким шумом, мы можем определить обучение в настройке Valiant : ^[1]^[2]

Определение: мы говорим, что это можно эффективно изучить, используя в настройке Valiant, если существует алгоритм обучения, который имеет доступ, и многочлен такой, что для любого и он выводит в ряде вызовов оракула, ограниченного , функцию, которая удовлетворяет с вероятность хотя бы условие . ${\ displaystyle f}$ ${\ displaystyle {\ mathcal {H}}}$ ${\ displaystyle {\ mathcal {A}}}$ ${\ displaystyle {\ text {Oracle}} (х)}$ ${\ Displaystyle п (\ CDOT, \ CDOT, \ CDOT, \ CDOT)}$ ${\ Displaystyle 0 <\ varepsilon \ leq 1}$ ${\ Displaystyle 0 <\ дельта \ leq 1}$ $p\left({\frac {1}{\varepsilon }},{\frac {1}{\delta }},n,{\text{size}}(f)\right)$ $h\in {\mathcal {H}}$ $1-\delta$ ${\text{error}}(h)\leq \varepsilon$

Далее мы определим обучаемость того, когда данные претерпели некоторые изменения. ^[3]^[4]^[5] $f$

Классификационный шум [ править ]

В модели шума классификации ^[6] вводится коэффициент шума . Тогда вместо того, чтобы всегда возвращать правильную метку примера , алгоритм может вызвать только неисправный оракул , который с вероятностью перевернет метку . Как и в случае с Valiant, цель алгоритма обучения - выбрать лучшую функцию , минимизирующую ее . В приложениях трудно получить доступ к реальному значению , но мы предполагаем, что у нас есть доступ к его верхней границе . ^[7] Обратите внимание, что если мы допустим уровень шума $0\leq \eta <{\frac {1}{2}}$ $Oracle(x)$ $x$ ${\mathcal {A}}$ $Oracle(x,\eta )$ $x$ $\eta$ ${\mathcal {A}}$ $h\in {\mathcal {H}}$ $error(h)=P_{x\sim {\mathcal {D}}}(h(x)\neq f(x))$ $\eta$ $\eta _{B}$ $1/2$ , то обучение становится невозможным при любом количестве времени вычислений, потому что каждая метка не несет информации о целевой функции.

Определение: мы говорим, что это можно эффективно изучить, используя в модели шума классификации, если существует алгоритм обучения, который имеет доступ, и многочлен такой, что для любого , и он выводит в ряде вызовов оракула, ограниченного , функцию, которая с вероятностью удовлетворяет хотя бы условию . $f$ ${\mathcal {H}}$ ${\mathcal {A}}$ $Oracle(x,\eta )$ $p(\cdot ,\cdot ,\cdot ,\cdot )$ $0\leq \eta \leq {\frac {1}{2}}$ $0\leq \varepsilon \leq 1$ $0\leq \delta \leq 1$ $p\left({\frac {1}{1-2\eta _{B}}},{\frac {1}{\varepsilon }},{\frac {1}{\delta }},n,size(f)\right)$ $h\in {\mathcal {H}}$ $1-\delta$ $error(h)\leq \varepsilon$

Статистическое изучение запросов [ править ]

Статистическое изучение запросов ^[8] - это своего рода проблема активного обучения, в которой алгоритм обучения может решить, запрашивать ли информацию о вероятности того, что функция правильно помечает пример , и получает ответ с точностью в пределах допуска . Формально, всякий раз, когда алгоритм обучения вызывает оракул , он получает в качестве вероятности обратной связи такую, что . ${\mathcal {A}}$ $P_{f(x)}$ $f$ $x$ $\alpha$ ${\mathcal {A}}$ $Oracle(x,\alpha )$ $Q_{f(x)}$ $Q_{f(x)}-\alpha \leq P_{f(x)}\leq Q_{f(x)}+\alpha$

Определение: Мы говорим , что это эффективно изучаемым с использованием в статистической модели обучения запрос , если существует алгоритм обучения , который имеет доступ к и полиномы , и такие , что для любого справедливы следующие: $f$ ${\mathcal {H}}$ ${\mathcal {A}}$ $Oracle(x,\alpha )$ $p(\cdot ,\cdot ,\cdot )$ $q(\cdot ,\cdot ,\cdot )$ $r(\cdot ,\cdot ,\cdot )$ $0<\varepsilon \leq 1$

$Oracle(x,\alpha )$ умеет вовремя оценивать ; $P_{f(x)}$ $q\left({\frac {1}{\varepsilon }},n,size(f)\right)$
${\frac {1}{\alpha }}$ ограничен $r\left({\frac {1}{\varepsilon }},n,size(f)\right)$
${\mathcal {A}}$ выводит такую модель , что в ряде обращений к оракулу, ограниченному . $h$ $err(h)<\varepsilon$ $p\left({\frac {1}{\varepsilon }},n,size(f)\right)$

Обратите внимание, что параметр достоверности не фигурирует в определении обучения. Это связано с тем, что основная цель состоит в том, чтобы дать алгоритму обучения небольшую вероятность отказа из-за нерепрезентативной выборки. Поскольку теперь всегда гарантируется соответствие критерию приближения , вероятность отказа больше не нужна. $\delta$ $\delta$ $Oracle(x,\alpha )$ $Q_{f(x)}-\alpha \leq P_{f(x)}\leq Q_{f(x)}+\alpha$

Модель статистического запроса строго слабее, чем модель PAC: любой класс, эффективно обучаемый SQ, может эффективно обучаться PAC при наличии шума классификации, но существуют эффективные проблемы, обучаемые PAC, такие как четность , которые не могут быть эффективно обучены SQ. ^[8]

Вредоносная классификация [ править ]

В модели злонамеренной классификации ^[9] злоумышленник генерирует ошибки, чтобы помешать алгоритму обучения. Этот параметр описывает ситуации пакета ошибок , которые могут возникнуть, когда в течение ограниченного времени передающее оборудование постоянно выходит из строя. Формально алгоритм вызывает оракул, который с вероятностью возвращает правильно помеченный пример, взятый, как обычно, из распределения по входному пространству , но с вероятностью возвращает пример, взятый из распределения, не связанного с . Кроме того, это злонамеренно выбран пример может стратегически выбран противником , который имеет знание , , или текущий ход алгоритма обучения. ${\mathcal {A}}$ $Oracle(x,\beta )$ $x$ ${\mathcal {D}}$ $1-\beta$ $\beta$ ${\mathcal {D}}$ $f$ $\beta$ ${\mathcal {D}}$

Определение: Учитывая связанный для , мы говорим , что это эффективно изучаемым с использованием в злонамеренной модели классификации, если существует алгоритм обучения , который имеет доступ к и полиному такого , что для любого , он выводит, в ряде обращений к оракулу ограничено by , функция, которая с вероятностью удовлетворяет, по крайней мере, условию . $\beta _{B}<{\frac {1}{2}}$ $0\leq \beta <{\frac {1}{2}}$ $f$ ${\mathcal {H}}$ ${\mathcal {A}}$ $Oracle(x,\beta )$ $p(\cdot ,\cdot ,\cdot ,\cdot ,\cdot )$ $0<\varepsilon \leq 1$ $0<\delta \leq 1$ $p\left({\frac {1}{1/2-\beta _{B}}},{\frac {1}{\varepsilon }},{\frac {1}{\delta }},n,size(f)\right)$ $h\in {\mathcal {H}}$ $1-\delta$ $error(h)\leq \varepsilon$

Ошибки во входных данных: неоднородный шум случайных атрибутов [ править ]

В модели шума с неоднородными случайными атрибутами ^[10]^[11] алгоритм изучает булеву функцию , злонамеренный оракул может перевернуть каждый -й бит примера независимо с вероятностью . $Oracle(x,\nu )$ $i$ $x=(x_{1},x_{2},\ldots ,x_{n})$ $\nu _{i}\leq \nu$

Этот тип ошибки может непоправимо помешать алгоритму, на самом деле имеет место следующая теорема:

При установке неоднородного шума случайных атрибутов алгоритм может выводить такую функцию , что только если . ${\mathcal {A}}$ $h\in {\mathcal {H}}$ $error(h)<\varepsilon$ $\nu <2\varepsilon$

См. Также [ править ]

Машинное обучение
Сбор данных
Наверное, примерно правильное обучение
Состязательное машинное обучение

Ссылки [ править ]

↑ Valiant, LG (август 1985 г.). Изучение дизъюнкции союзов . В IJCAI (стр. 560–566).
^ Валиант, Лесли Г. "Теория обучаемого". Сообщения ACM 27.11 (1984): 1134–1142.
Перейти ↑ Laird, PD (1988). Учимся на хороших и плохих данных . Kluwer Academic Publishers.
^ Кирнс, Майкл. «Эффективное устойчивое к шуму обучение на основе статистических запросов». Журнал ACM 45.6 (1998): 983–1006.
^ Бранк, Клиффорд А. и Майкл Дж. Паццани. «Исследование устойчивых к шуму реляционных алгоритмов обучения концепции». Материалы 8-го международного семинара по машинному обучению. 1991 г.
^ Кернс, MJ, и Вазирани, UV (1994). Введение в теорию вычислительного обучения, глава 5. MIT press.
^ Angluin, D., & Laird, P. (1988). Учимся на шумных примерах . Машинное обучение, 2 (4), 343–370.
^ а б Кирнс, М. (1998). [www.cis.upenn.edu/~mkearns/papers/sq-journal.pdf Эффективное устойчивое к шуму обучение на основе статистических запросов] . Журнал ACM, 45 (6), 983–1006.
^ Кернс, М., & Li, M. (1993). [www.cis.upenn.edu/~mkearns/papers/malicious.pdf Обучение при наличии вредоносных ошибок] . SIAM Journal on Computing, 22 (4), 807–837.
Перейти ↑ Goldman, SA, & Robert, H. (1991). Слоан. Сложность случайного атрибута шума. Технический отчет WUCS 91 29, Вашингтонский университет, факультет компьютерных наук.
Перейти ↑ Sloan, RH (1989). Теория вычислительного обучения: новые модели и алгоритмы (докторская диссертация, Массачусетский технологический институт).

[1] Valiant, LG (август 1985 г.). Изучение дизъюнкции союзов . В IJCAI (стр. 560–566).

[2] Валиант, Лесли Г. "Теория обучаемого". Сообщения ACM 27.11 (1984): 1134–1142.

[3] Перейти ↑ Laird, PD (1988). Учимся на хороших и плохих данных . Kluwer Academic Publishers.

[4] Кирнс, Майкл. «Эффективное устойчивое к шуму обучение на основе статистических запросов». Журнал ACM 45.6 (1998): 983–1006.

[5] Бранк, Клиффорд А. и Майкл Дж. Паццани. «Исследование устойчивых к шуму реляционных алгоритмов обучения концепции». Материалы 8-го международного семинара по машинному обучению. 1991 г.

[kv-6] Кернс, MJ, и Вазирани, UV (1994). Введение в теорию вычислительного обучения, глава 5. MIT press.

[7] Angluin, D., & Laird, P. (1988). Учимся на шумных примерах . Машинное обучение, 2 (4), 343–370.

[kearns-8] а б Кирнс, М. (1998). [www.cis.upenn.edu/~mkearns/papers/sq-journal.pdf Эффективное устойчивое к шуму обучение на основе статистических запросов] . Журнал ACM, 45 (6), 983–1006.

[9] Кернс, М., & Li, M. (1993). [www.cis.upenn.edu/~mkearns/papers/malicious.pdf Обучение при наличии вредоносных ошибок] . SIAM Journal on Computing, 22 (4), 807–837.

[10] Перейти ↑ Goldman, SA, & Robert, H. (1991). Слоан. Сложность случайного атрибута шума. Технический отчет WUCS 91 29, Вашингтонский университет, факультет компьютерных наук.

[11] Перейти ↑ Sloan, RH (1989). Теория вычислительного обучения: новые модели и алгоритмы (докторская диссертация, Массачусетский технологический институт).