Внимание (машинное обучение)

В контексте нейронных сетей , внимание является методом , который имитирует познавательное внимание . Эффект усиливает важные части входных данных и затушевывает остальные - идея состоит в том, что сеть должна выделять больше вычислительной мощности на эту небольшую, но важную часть данных. Какая часть данных важнее других, зависит от контекста и изучается через обучающие данные с помощью градиентного спуска.

Они используются в самых разных моделях машинного обучения, в том числе в обработке естественного языка и компьютерном зрении . ^[1]^[2]

Трансформаторные сети широко используют механизмы внимания для достижения своей выразительной силы. ^[1] Системы компьютерного зрения, основанные на сверточных нейронных сетях, также могут извлечь выгоду из механизмов внимания. ^{[ необходима цитата ]}

Два наиболее распространенных метода внимания - это скалярное произведение , которое использует скалярное произведение между векторами для определения внимания, и множественное внимание , которое объединяет несколько различных механизмов внимания для направления общего внимания сети или подсети.

Пример языкового перевода [ править ]

Чтобы построить машину, которая переводит с английского на французский (см. Диаграмму ниже), нужно начать с кодировщика-декодера и привить к нему блок внимания. Блок внимания - это полностью подключенная нейронная сеть, которая передает взвешенную комбинацию выходных сигналов кодера в декодер.

Энкодер-декодер с вниманием. В этой диаграмме используются определенные значения, чтобы облегчить и без того загроможденный алфавитный суп нотации. Левая часть (черным цветом) - это кодировщик-декодер, средняя часть (оранжевым цветом) - это единица внимания, а правая часть (серым цветом и цветами) - это вычисленные данные. Серые области в матрице H и векторе w - нулевые значения. Нижние индексы являются примерами размеров векторов, за исключением i-1, который указывает временной шаг.

Легенда
метка	описание
100	максимальная длина предложения
300	размер встраивания. (размер слова)
500	длина скрытого вектора
10 тыс.	размер словаря 10 000 слов
х , у	10k 1-горячий словарь вектор. x → x реализован как таблица поиска, а не как умножение векторов.
х, у	Вектор встраивания слов длиной 300. Векторы обычно предварительно рассчитываются из других проектов, таких как Glove или Word2Vec.
час	Скрытый вектор кодировщика длиной 500. В каждый момент времени этот вектор суммирует все предыдущие слова перед ним. Последний h можно рассматривать как вектор «предложения» или вектор мысли, как его называет Хинтон.
s	500-длинный декодер скрытых нейронов RNN Encoder.
E	Кодировщик РНН 500 нейронов. 300 + 300 входов, 500 выходов.
D	2-х слойный декодер. 1 слой с 500 нейронами и другой слой с 300 нейронами.
счет	100 очков выравнивания
ш	100-длинный векторный вес внимания. Это «мягкие» веса, которые изменяются во время прямого прохода, в отличие от «жестких» весов нейронов, которые изменяются во время фазы обучения.
А	Модуль внимания - полностью подключенная сеть, на выходе которой получается 100-балльная оценка.
ЧАС	500x100. 100 скрытых векторов h, объединенных в матрицу
c	Вектор контекста длиной 500 = H * w. c - линейная комбинация h векторов, взвешенных по w.

В этой таблице показаны расчеты на каждом временном шаге. Для ясности в нем используются конкретные числовые значения и формы, а не буквы. Вложенные формы отображают обобщающую природу h, где каждый h содержит историю слов, которые были перед ним. Здесь оценки внимания были приготовлены для получения желаемых весов внимания.

шаг	Икс	h, H = выход кодировщика, это векторы размером 500x1, представленные в виде фигур	y _i-1 = вход декодера для внимания	оценка выравнивания	w = вес внимания = softmax (оценка)	c = вектор контекста = H * w	y = выход декодера
1	я	= векторная кодировка для "I"	-	-	-	-	-
2	люблю	= векторная кодировка для слова "я люблю"	-	-	-	-	-
3	ты	= векторная кодировка для фразы "Я люблю тебя"	-	-	-	-	-
4	-	-	y ₁ еще не существует, поэтому мы используем это вместо	[.63 -3,2 -2,5 .5 .5 ...]	[.94 .02 .04 0 0 ...]	0,94 * + 0,02 * + 0,04 *	je
5	-	-	y ₁	[-1,5 -3,9 .57 .5 .5 ...]	[.11 .01 .88 0 0 ...]	0,11 * + 0,01 * + 0,88 *	т '
6	-	-	y ₂	[-2,8 .64 -3,2 .5 .5 ...]	[.03 .95 .02 0 0 ...]	0,03 * + 0,95 * + 0,02 *	прицеливаться

В виде матрицы весовые коэффициенты внимания показывают, как сеть регулирует фокус в соответствии с контекстом.

	я	люблю	ты
je	0,94	0,02	0,04
т '	.11	0,01	0,88
прицеливаться	0,03	0,95	0,02

Такой взгляд на веса внимания решает проблему «объяснимости», за которую критикуют нейронные сети. Сети, которые выполняют дословный перевод без учета порядка слов, имели бы диагонально доминирующую матрицу, если бы их можно было анализировать в этих терминах. Недиагональное доминирование показывает, что в механизме внимания больше нюансов. При первом проходе через декодер 94% веса внимания приходится на первое английское слово «I», поэтому сеть предлагает слово «je». На втором проходе декодера 88% веса внимания приходится на третье английское слово «you», поэтому оно предлагает «t '». В последнем проходе 95% веса внимания приходится на второе английское слово «любовь», поэтому оно предлагает «aime».

Ссылки [ править ]

^ ^а ^б Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Uszkoreit, Jakob; Джонс, Ллион; Gomez, Aidan N .; Кайзер, Лукаш; Полосухин, Илья (05.12.2017). «Внимание - все, что вам нужно». arXiv : 1706.03762 [ cs.CL ].
^ Рамачандран, Праджит; Пармар, Ники; Васвани, Ашиш; Белло, Ирван; Левская, Ансельм; Шленс, Джонатон (13.06.2019). «Автономное внимание к себе в моделях зрения». arXiv : 1906.05909 [ cs.CV ].

Внешние ссылки [ править ]

Алекс Грейвс (4 мая 2020 г.), Внимание и память в глубоком обучении (видеолекция), DeepMind / UCL , через YouTube.
Доска с алгоритмом Rasa - внимание через YouTube

Эта статья по информатике незавершена . Вы можете помочь Википедии, расширив ее .

[allyouneed-1] а ^б Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Uszkoreit, Jakob; Джонс, Ллион; Gomez, Aidan N .; Кайзер, Лукаш; Полосухин, Илья (05.12.2017). «Внимание - все, что вам нужно». arXiv : 1706.03762 [ cs.CL ].

[2] Рамачандран, Праджит; Пармар, Ники; Васвани, Ашиш; Белло, Ирван; Левская, Ансельм; Шленс, Джонатон (13.06.2019). «Автономное внимание к себе в моделях зрения». arXiv : 1906.05909 [ cs.CV ].

[1]