Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Видео кадров брусьев категории действий в UCF-101 наборе данных [1] (а) старшинство четыре кадра в видео височных внимания весов, в которой спортсмен выступает на брусьях; (b) Четыре кадра с самым низким рейтингом в видео с временными весами внимания , на которых спортсмен стоит на земле. Все веса предсказываются алгоритмом ATW CNN. [2] Видеокадры с большим весом обычно фиксируют наиболее характерные движения, относящиеся к категории действий.

Визуальное временное внимание - это особый случай визуального внимания, которое включает в себя направление внимания на определенный момент времени. Подобно своему пространственному аналогу визуального пространственного внимания , эти модули внимания широко используются в видеоаналитике в компьютерном зрении, чтобы обеспечить повышенную производительность и интерпретируемое человеком объяснение [3] моделей глубокого обучения .

Поскольку механизм визуального пространственного внимания позволяет системам человеческого и / или компьютерного зрения уделять больше внимания семантически более существенным областям пространства, модули визуального временного внимания позволяют алгоритмам машинного обучения уделять больше внимания критическим видеокадрам в задачах видеоаналитики , таких как распознавание действий человека . В системах на основе сверточных нейронных сетей приоритезация, вводимая механизмом внимания, регулярно реализуется как линейный весовой слой с параметрами, определяемыми помеченными обучающими данными. [3]

Распознавание приложения в действии [ править ]

Архитектура ATW CNN. [4] Три потока CNN используются для обработки пространственных изображений RGB, изображений временного оптического потока и изображений оптического потока с деформацией во времени, соответственно. Модель внимания используется для присвоения временных весов между фрагментами для каждого потока / модальности. Взвешенная сумма используется для объединения прогнозов из трех потоков / модальностей.

Современные алгоритмы сегментации видео часто используют как пространственные, так и временные механизмы внимания. [2] [4] Исследования в области распознавания действий человека значительно ускорились с появлением таких мощных инструментов, как сверточные нейронные сети (CNN) . Однако эффективные методы включения временной информации в CNN все еще активно исследуются. На основе популярных моделей повторяющегося внимания в обработке естественного языка предлагается временная взвешенная CNN с учетом внимания (ATW CNN) [4]в видео, который включает модель визуального внимания в многопотоковую CNN, взвешенную по времени. Эта модель внимания реализована как временное взвешивание и эффективно повышает качество распознавания видеопредставлений. Кроме того, каждый поток в предлагаемой структуре ATW CNN может проходить сквозное обучение, при этом как параметры сети, так и временные веса оптимизированы с помощью стохастического градиентного спуска (SGD) с обратным распространением . Экспериментальные результаты показывают, что механизм внимания ATW CNN вносит существенный вклад в повышение производительности с помощью более разборчивых фрагментов, фокусируясь на более релевантных сегментах видео.


См. Также [ править ]

Ссылки [ править ]

  1. ^ Центр, UCF (2013-10-17). «UCF101 - Набор данных распознавания действий» . CRCV . Проверено 12 сентября 2018 .
  2. ^ а б Цзанг, Цзиньлян; Ван, Ле; Лю, Цзыи; Чжан, Цилинь; Хуа, банда; Чжэн, Наньнин (2018). «Сверточная нейронная сеть, основанная на внимании, взвешенная по времени для распознавания действий». Достижения ИФИП в области информационных и коммуникационных технологий . Чам: Издательство Springer International. С. 97–108. arXiv : 1803.07179 . DOI : 10.1007 / 978-3-319-92007-8_9 . ISBN 978-3-319-92006-1. ISSN  1868-4238 . S2CID  4058889 .
  3. ^ а б «НИПС 2017» . Интерпретируемый симпозиум ML . 2017-10-20 . Проверено 12 сентября 2018 .
  4. ^ a b c Ван, Ле; Занг, Цзиньлян; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (21.06.2018). «Распознавание действий с помощью временной взвешенной сверточной нейронной сети с учетом внимания» (PDF) . Датчики . MDPI AG. 18 (7): 1979. DOI : 10,3390 / s18071979 . ISSN 1424-8220 . PMC 6069475 . PMID 29933555 .    Материал был скопирован из этого источника, доступного по международной лицензии Creative Commons Attribution 4.0 .