Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В контексте нейронных сетей , внимание является методом , который имитирует познавательное внимание . Эффект усиливает важные части входных данных и затушевывает остальные - идея состоит в том, что сеть должна выделять больше вычислительной мощности на эту небольшую, но важную часть данных. Какая часть данных важнее других, зависит от контекста и изучается через обучающие данные с помощью градиентного спуска.

Они используются в самых разных моделях машинного обучения, в том числе в обработке естественного языка и компьютерном зрении . [1] [2]

Трансформаторные сети широко используют механизмы внимания для достижения своей выразительной силы. [1] Системы компьютерного зрения, основанные на сверточных нейронных сетях, также могут извлечь выгоду из механизмов внимания. [ необходима цитата ]

Два наиболее распространенных метода внимания - это скалярное произведение , которое использует скалярное произведение между векторами для определения внимания, и множественное внимание , которое объединяет несколько различных механизмов внимания для направления общего внимания сети или подсети.

Пример языкового перевода [ править ]

Чтобы построить машину, которая переводит с английского на французский (см. Диаграмму ниже), нужно начать с кодировщика-декодера и привить к нему блок внимания. Блок внимания - это полностью подключенная нейронная сеть, которая передает взвешенную комбинацию выходных сигналов кодера в декодер.

В этой таблице показаны расчеты на каждом временном шаге. Для ясности в нем используются конкретные числовые значения и формы, а не буквы. Вложенные формы отображают обобщающую природу h, где каждый h содержит историю слов, которые были перед ним. Здесь оценки внимания были приготовлены для получения желаемых весов внимания.

В виде матрицы весовые коэффициенты внимания показывают, как сеть регулирует фокус в соответствии с контекстом.

Такой взгляд на веса внимания решает проблему «объяснимости», за которую критикуют нейронные сети. Сети, которые выполняют дословный перевод без учета порядка слов, имели бы диагонально доминирующую матрицу, если бы их можно было анализировать в этих терминах. Недиагональное доминирование показывает, что в механизме внимания больше нюансов. При первом проходе через декодер 94% веса внимания приходится на первое английское слово «I», поэтому сеть предлагает слово «je». На втором проходе декодера 88% веса внимания приходится на третье английское слово «you», поэтому оно предлагает «t '». В последнем проходе 95% веса внимания приходится на второе английское слово «любовь», поэтому оно предлагает «aime».

Ссылки [ править ]

  1. ^ а б Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Uszkoreit, Jakob; Джонс, Ллион; Gomez, Aidan N .; Кайзер, Лукаш; Полосухин, Илья (05.12.2017). «Внимание - все, что вам нужно». arXiv : 1706.03762 [ cs.CL ].
  2. ^ Рамачандран, Праджит; Пармар, Ники; Васвани, Ашиш; Белло, Ирван; Левская, Ансельм; Шленс, Джонатон (13.06.2019). «Автономное внимание к себе в моделях зрения». arXiv : 1906.05909 [ cs.CV ].

Внешние ссылки [ править ]