Автоэнкодер

Автоэнкодер — это тип искусственной нейронной сети , используемый для обучения эффективному кодированию неразмеченных данных ( обучение без учителя ). ^[1]^[2] Автоэнкодер изучает две функции: функцию кодирования, которая преобразует входные данные, и функцию декодирования, которая воссоздает входные данные из закодированного представления. Автоэнкодер изучает эффективное представление (кодирование) набора данных, как правило, для уменьшения размерности .

Существуют варианты, направленные на то, чтобы выученные представления приобрели полезные свойства. ^[3] Примерами являются регуляризованные автоэнкодеры ( Sparse , Denoising и Contractive ), которые эффективны при изучении представлений для последующих задач классификации , ^[4] и вариационные автоэнкодеры с приложениями в качестве генеративных моделей . ^[5] Автоэнкодеры применяются для решения многих задач, включая распознавание лиц , ^[6] обнаружение признаков, ^[7] обнаружение аномалий и определение значения слов. ^[8]^[9]Автоэнкодеры также являются генеративными моделями, которые могут случайным образом генерировать новые данные, похожие на входные данные (данные для обучения). ^[7]

Два набора: пространство декодированных сообщений ; пространство закодированных сообщений . Почти всегда оба и являются евклидовыми пространствами, т. е. для некоторых . ${\ displaystyle {\ mathcal {X}}}$ ${\ Displaystyle {\ mathcal {Z}}}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ Displaystyle {\ mathcal {Z}}}$ ${\ displaystyle {\ mathcal {X}} = \ mathbb {R} ^ {m}, {\ mathcal {Z}} = \ mathbb {R} ^ {n}}$ ${\ Displaystyle м, п}$

Два параметризованных семейства функций: семейство энкодера , параметризуемое ; семейство декодеров , параметризованное . ${\ displaystyle E _ {\ phi}: {\ mathcal {X}} \ rightarrow {\ mathcal {Z}}}$ ${\ Displaystyle \ фи}$ ${\ displaystyle D _ {\ theta}: {\ mathcal {Z}} \ rightarrow {\ mathcal {X}}}$ ${\ Displaystyle \ тета}$

Для любого мы обычно пишем и называем его кодом, скрытой переменной , скрытым представлением, скрытым вектором и т. д. И наоборот, для любого мы обычно пишем и называем его (декодированным) сообщением. ${\ Displaystyle х \ в {\ mathcal {X}}}$ ${\ Displaystyle г = Е _ {\ фи} (х)}$ ${\ Displaystyle г \ в {\ mathcal {Z}}}$ ${\ Displaystyle х '= D _ {\ тета} (г)}$

Схема базового автоэнкодера

Простая схема однослойного разреженного автоэнкодера. Скрытые узлы ярко-желтого цвета активированы, а светло-желтые неактивны. Активация зависит от ввода.

Схематическая структура автоэнкодера с 3 полностью связанными скрытыми слоями. Код (z или h для ссылки в тексте) является самым внутренним слоем.

График первых двух основных компонентов (слева) и двумерного скрытого слоя линейного автоэнкодера (справа), примененного к набору данных Fashion MNIST . ^[28] Две модели, будучи линейными, учатся охватывать одно и то же подпространство. Проекция точек данных действительно идентична, за исключением вращения подпространства, к которому PCA инвариантна.

Реконструкция изображений 28x28 пикселей с помощью автоэнкодера с размером кода два (двухэлементный скрытый слой) и реконструкция из первых двух основных компонентов PCA. Изображения взяты из набора данных Fashion MNIST . ^[28]