Наверное, примерно правильное обучение

В теории вычислительного обучения , вероятно, приблизительно правильное ( PAC ) обучение - это основа для математического анализа машинного обучения . Он был предложен в 1984 году Лесли Валиантом . ^[1]

В этой структуре учащийся получает образцы и должен выбрать функцию обобщения (называемую гипотезой ) из определенного класса возможных функций. Цель состоит в том, чтобы с высокой вероятностью (часть "вероятно") выбранная функция имела низкую ошибку обобщения (часть "приблизительно правильная"). Учащийся должен уметь усвоить концепцию с учетом любого произвольного коэффициента приближения, вероятности успеха или распределения выборок .

Позже модель была расширена для обработки шума (неправильно классифицированные образцы).

Важным нововведением структуры PAC является введение концепций теории сложности вычислений в машинное обучение. В частности, ожидается, что учащийся найдет эффективные функции (требования по времени и пространству ограничены полиномом размера примера), а сам учащийся должен реализовать эффективную процедуру (требующую, чтобы количество примеров ограничивалось полиномом размера концепции, измененным оценками аппроксимации и правдоподобия ).

Определения и терминология

Чтобы дать определение чему-то, что можно изучить с помощью PAC, мы сначала должны ввести некоторую терминологию. ^[2]^[3]

Для следующих определений будут использованы два примера. Первая - это проблема распознавания символов по массиву ${\ displaystyle n}$ биты, кодирующие двоичное изображение. Другой пример - проблема поиска интервала, который правильно классифицирует точки в пределах интервала как положительные, а точки вне диапазона как отрицательные.

Позволять ${\ displaystyle X}$ быть набором, называемым пространством экземпляров, или кодировкой всех образцов. В задаче распознавания символов пространство экземпляра ${\ Displaystyle Х = \ {0,1 \} ^ {п}}$ . В задаче об интервале пространство экземпляров, ${\ displaystyle X}$ , - множество всех ограниченных интервалов в ${\ Displaystyle \ mathbb {R}}$ , где ${\ Displaystyle \ mathbb {R}}$ обозначает набор всех действительных чисел .

Концепция является подмножеством ${\ Displaystyle с \ подмножество X}$ . Одна концепция - это набор всех комбинаций битов в ${\ Displaystyle Х = \ {0,1 \} ^ {п}}$ которые кодируют изображение буквы «П». Пример концепции из второго примера - это набор открытых интервалов, ${\ displaystyle \ {(a, b) \ mid 0 \ leq a \ leq \ pi / 2, \ pi \ leq b \ leq {\ sqrt {13}} \}}$ , каждая из которых содержит только положительные точки. Класс концепция ${\ displaystyle C}$ это собрание концепций над ${\ displaystyle X}$ . Это может быть набор всех подмножеств массива битов, скелетонизированных 4-связными (ширина шрифта равна 1).

Позволять ${\ displaystyle EX (c, D)}$ быть процедурой, которая рисует пример, ${\ displaystyle x}$ , используя распределение вероятностей ${\ displaystyle D}$ и дает правильный ярлык ${\ Displaystyle с (х)}$ , то есть 1, если ${\ displaystyle x \ in c}$ и 0 в противном случае.

Теперь, учитывая ${\ displaystyle 0 <\ epsilon, \ delta <1}$ , предположим, что есть алгоритм ${\ displaystyle A}$ и многочлен ${\ displaystyle p}$ в ${\ displaystyle 1 / \ epsilon, 1 / \ delta}$ (и другие соответствующие параметры класса ${\ displaystyle C}$ ) такой, что, учитывая размер выборки ${\ displaystyle p}$ нарисованный в соответствии с ${\ displaystyle EX (c, D)}$ , то с вероятностью не менее ${\ displaystyle 1- \ delta}$ , ${\ displaystyle A}$ выводит гипотезу ${\ displaystyle h \ in C}$ со средней ошибкой меньше или равной ${\ displaystyle \ epsilon}$ на ${\ displaystyle X}$ с таким же распределением ${\ displaystyle D}$ . Кроме того, если приведенное выше утверждение для алгоритма ${\ displaystyle A}$ верно для любой концепции ${\ displaystyle c \ in C}$ и для каждого распределения ${\ displaystyle D}$ над ${\ displaystyle X}$ , и для всех ${\ displaystyle 0 <\ epsilon, \ delta <1}$ тогда ${\ displaystyle C}$ является (эффективно) обучаемым PAC (или обучаемым PAC без распространения ). Мы также можем сказать, что ${\ displaystyle A}$ является алгоритм обучения PAC для ${\ displaystyle C}$ .

Эквивалентность

При некоторых условиях регулярности эти условия эквивалентны: ^[4]

Концептуальный класс C доступен для обучения PAC.
Размерность ВК из C конечна.
C - равномерный класс Гливенко – Кантелли . ^{[ требуется разъяснение ]}
С является сжимаемым в смысле Littlestone и Warmuth

Смотрите также

дальнейшее чтение

М. Кернс, У. Вазирани. Введение в теорию вычислительного обучения . MIT Press, 1994. Учебник.
М. Мохри, А. Ростамизаде, А. Талвалкар. Основы машинного обучения . MIT Press, 2018. Глава 2 содержит подробное рассмотрение PAC-обучаемости. Доступно для чтения через открытый доступ от издателя.
Д. Хаусслер. Обзор схемы обучения «Вероятно приблизительно правильное» (PAC) . Введение в тему.
Л. Валиант. Наверное, примерно правильно. Basic Books, 2013. В этой статье Valiant утверждает, что обучение PAC описывает, как организмы развиваются и учатся.

[valiant-1] Л. Вэлиант. Теория изучаемого. Сообщения ACM, 27, 1984.

[2] Кернс и Вазирани, стр. 1-12,

[3] Балас Каусик Натараджан, Машинное обучение, теоретический подход, издательство Morgan Kaufmann, 1991

[4] Блюмер, Ансельм; Эренфойхт, Анджей; Дэвид, Хаусслер; Манфред, Вармут (октябрь 1989 г.). «Обучаемость и измерение Вапника-Червоненкиса». Журнал Ассоциации вычислительной техники . 36 (4): 929–965. DOI : 10.1145 / 76359.76371 . S2CID 1138467 .

[1]

Наверное, примерно правильное обучение

Определения и терминология

Эквивалентность

Смотрите также

Рекомендации

дальнейшее чтение