Преобразователь зрения

Vision Transformer ( ViT ) — это преобразователь , предназначенный для решения задач обработки зрения, таких как распознавание изображений . ^[1]

Преобразователи нашли свое первоначальное применение в задачах обработки естественного языка (NLP), о чем свидетельствуют языковые модели , такие как BERT и GPT-3 . Напротив, в типичной системе обработки изображений используется сверточная нейронная сеть (CNN). К известным проектам относятся Xception, ResNet , EfficientNet, ^[2] , DenseNet, ^[3] и Inception. ^[1]

Преобразователи измеряют отношения между парами входных токенов (слов в случае текстовых строк), называемые вниманием . Стоимость квадратична по количеству токенов. Для изображений основной единицей анализа является пиксель . Однако вычисление взаимосвязей для каждой пары пикселей в типичном изображении непомерно с точки зрения памяти и вычислений. Вместо этого ViT вычисляет отношения между пикселями в различных небольших частях изображения (например, 16x16 пикселей) при значительно меньших затратах. Секции (с позиционными вложениями) располагаются последовательно. Вложения являются обучаемыми векторами. Каждый раздел организован в виде линейной последовательности и умножен на матрицу вложения. Результат с позиции заложения подается на преобразователь. ^[1]

Как и в случае с BERT , фундаментальную роль в задачах классификации играет токен класса. Специальный токен, который используется в качестве единственного входа финальной главы MLP , поскольку на него повлияли все остальные.

Архитектура для классификации изображений является наиболее распространенной и использует только Transformer Encoder для преобразования различных входных токенов. Однако есть и другие приложения, в которых также используется часть декодера традиционной архитектуры Transformer.

Общая архитектура трансформатора была впервые представлена в 2017 году в известной статье «Внимание — это все, что вам нужно». ^[4] Они получили широкое распространение в области обработки естественного языка и стали одной из наиболее широко используемых и многообещающих архитектур нейронных сетей в этой области.

Архитектура Vision Transformer для классификации изображений