Визуальное временное внимание - это особый случай визуального внимания, которое включает в себя направление внимания на определенный момент времени. Подобно своему пространственному аналогу визуального пространственного внимания , эти модули внимания широко используются в видеоаналитике в компьютерном зрении, чтобы обеспечить повышенную производительность и интерпретируемое человеком объяснение [3] моделей глубокого обучения .
Поскольку механизм визуального пространственного внимания позволяет системам человеческого и / или компьютерного зрения уделять больше внимания семантически более существенным областям пространства, модули визуального временного внимания позволяют алгоритмам машинного обучения уделять больше внимания критическим видеокадрам в задачах видеоаналитики , таких как распознавание действий человека . В системах на основе сверточных нейронных сетей приоритезация, вводимая механизмом внимания, регулярно реализуется как линейный весовой слой с параметрами, определяемыми помеченными обучающими данными. [3]
Распознавание приложения в действии [ править ]
Современные алгоритмы сегментации видео часто используют как пространственные, так и временные механизмы внимания. [2] [4] Исследования в области распознавания действий человека значительно ускорились с появлением таких мощных инструментов, как сверточные нейронные сети (CNN) . Однако эффективные методы включения временной информации в CNN все еще активно исследуются. На основе популярных моделей повторяющегося внимания в обработке естественного языка предлагается временная взвешенная CNN с учетом внимания (ATW CNN) [4]в видео, который включает модель визуального внимания в многопотоковую CNN, взвешенную по времени. Эта модель внимания реализована как временное взвешивание и эффективно повышает качество распознавания видеопредставлений. Кроме того, каждый поток в предлагаемой структуре ATW CNN может проходить сквозное обучение, при этом как параметры сети, так и временные веса оптимизированы с помощью стохастического градиентного спуска (SGD) с обратным распространением . Экспериментальные результаты показывают, что механизм внимания ATW CNN вносит существенный вклад в повышение производительности с помощью более разборчивых фрагментов, фокусируясь на более релевантных сегментах видео.
См. Также [ править ]
- Внимание
- Визуальное пространственное внимание
- Распознавание действий
- Анализ видеоконтента
- Сверточная нейронная сеть
- Компьютерное зрение
Ссылки [ править ]
- ^ Центр, UCF (2013-10-17). «UCF101 - Набор данных распознавания действий» . CRCV . Проверено 12 сентября 2018 .
- ^ а б Цзанг, Цзиньлян; Ван, Ле; Лю, Цзыи; Чжан, Цилинь; Хуа, банда; Чжэн, Наньнин (2018). «Сверточная нейронная сеть, основанная на внимании, взвешенная по времени для распознавания действий». Достижения ИФИП в области информационных и коммуникационных технологий . Чам: Издательство Springer International. С. 97–108. arXiv : 1803.07179 . DOI : 10.1007 / 978-3-319-92007-8_9 . ISBN 978-3-319-92006-1. ISSN 1868-4238 . S2CID 4058889 .
- ^ а б «НИПС 2017» . Интерпретируемый симпозиум ML . 2017-10-20 . Проверено 12 сентября 2018 .
- ^ a b c Ван, Ле; Занг, Цзиньлян; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (21.06.2018). «Распознавание действий с помощью временной взвешенной сверточной нейронной сети с учетом внимания» (PDF) . Датчики . MDPI AG. 18 (7): 1979. DOI : 10,3390 / s18071979 . ISSN 1424-8220 . PMC 6069475 . PMID 29933555 . Материал был скопирован из этого источника, доступного по международной лицензии Creative Commons Attribution 4.0 .