Эгоцентрическое видение

Эгоцентрическое зрение или видение от первого лица - это подполе компьютерного зрения, которое влечет за собой анализ изображений и видео, снятых носимой камерой , которая обычно носит на голове или на груди и естественным образом приближается к полю зрения владельца камеры. Следовательно, визуальные данные захватывают часть сцены, на которой пользователь сосредотачивается для выполнения поставленной задачи, и предлагают ценную перспективу для понимания действий пользователя и их контекста в естественной обстановке. ^[1]

Носимая камера, смотрящая вперед, часто дополняется камерой, смотрящей внутрь на глаз пользователя и способной измерять взгляд пользователя, что полезно для выявления внимания и лучшего понимания действий и намерений пользователя.

История

Идея использования переносной камеры для сбора визуальных данных от первого лица восходит к 70-м годам, когда Стив Манн изобрел «цифровое глазное стекло», устройство, которое при ношении заставляет сам человеческий глаз эффективно становиться одновременно и электронная камера и телеэкран. ^[2]

Впоследствии носимые камеры стали использоваться в приложениях, связанных со здоровьем, в контексте Humanistic Intelligence ^[3] и Wearable AI. ^[4] Эгоцентрическое зрение лучше всего осуществлять с точки зрения глаза, но его также можно осуществлять с помощью камеры для ношения на шее, когда очки будут мешать. ^[5] Этот вариант для ношения на шее был популяризирован с помощью Microsoft SenseCam в 2006 году для экспериментальных исследований в области здравоохранения. ^[6] Интерес сообщества компьютерного зрения к эгоцентрической парадигме медленно растет в 2010-х годах и быстро растет в последние годы ^[7], чему способствуют как впечатляющие достижения в области носимых технологий, так и растущее число людей. потенциальных приложений.

Прототипная система видения от первого лица, описанная Канаде и Хебертом ^[8] в 2012 году, состоит из трех основных компонентов: компонента локализации, способного оценивать окружение, компонента распознавания, способного идентифицировать объект и людей, и компонента распознавания активности , может предоставить информацию о текущей активности пользователя. Вместе эти три компонента обеспечивают полную ситуационную осведомленность пользователя, которая, в свою очередь, может использоваться для оказания помощи самому себе или опекуну. Следуя этой идее, первые вычислительные техники для эгоцентрического анализа были сосредоточены на распознавании активности рук ^[9] и анализе социального взаимодействия. ^[10] Кроме того, учитывая неограниченный характер видео и огромное количество генерируемых данных, временная сегментация ^[11] и резюмирование ^{[12] были} одними из первых решаемых проблем. После почти десяти лет эгоцентрического видения (2007–2017 гг.) Отрасль все еще находится в процессе диверсификации. Новые темы исследований включают:

Оценка социальной значимости ^[13]
Многоагентные эгоцентрические системы зрения
Методы и приложения для сохранения конфиденциальности
Анализ активности на основе внимания ^[14]
Анализ социального взаимодействия ^[15]
Анализ позы рук ^[16]
Графические пользовательские интерфейсы Ego (EUI) ^[17]
Понимание социальной динамики и внимания ^[18]
Новый взгляд на зрение роботов и машинное зрение как на эгоцентрическое восприятие ^[19]
Прогнозирование активности ^[20]

Технические проблемы

Сегодняшние носимые камеры - это небольшие и легкие цифровые записывающие устройства, которые могут автоматически, без вмешательства пользователя, получать изображения и видео с разными разрешениями и частотой кадров, а также от первого лица. Поэтому носимые камеры, естественно, предназначены для сбора визуальной информации из наших повседневных взаимодействий, поскольку они предлагают интимную перспективу поля зрения владельца камеры.

В зависимости от частоты кадров принято различать фотоаппараты (также называемые камерами лайфлоггинга) и видеокамеры.

Первые (например, Narrative Clip и Microsoft SenseCam ) обычно носят на груди и характеризуются очень низкой частотой кадров (до 2 кадров в минуту), что позволяет снимать изображения в течение длительного периода времени без необходимости подзарядки аккумулятор. Следовательно, они предлагают значительный потенциал для вывода знаний, например, о моделях поведения, привычках или образе жизни пользователя. Однако из-за низкой частоты кадров и свободного движения камеры смежные во времени изображения обычно имеют резкие изменения внешнего вида, так что признаки движения невозможно надежно оценить.
Последние (например, Google Glass , GoPro ) обычно устанавливаются на голову и снимают обычное видео (около 35 кадров в секунду), что позволяет фиксировать мелкие временные детали взаимодействий. Следовательно, они предлагают возможность для углубленного анализа повседневных или особых занятий. Однако, поскольку камера движется вместе с головой пользователя, становится труднее оценить общее движение пользователя, а в случае резких движений изображения могут получиться размытыми.

В обоих случаях, поскольку камеру носят в естественной обстановке, визуальные данные сильно различаются с точки зрения условий освещения и внешнего вида объекта. Более того, владелец камеры не виден на изображении, и то, что он / она делает, должно быть выведено из информации в поле зрения камеры, подразумевая эту важную информацию о владельце, такую как, например, оценка позы или выражения лица. , не доступен.

Приложения

Сборник исследований, опубликованных в специальном тематическом выпуске Американского журнала профилактической медицины ^[21] , продемонстрировал потенциал журналов жизни, снятых с помощью носимых камер, с разных точек зрения. В частности, было показано, что использование журналов жизни в качестве инструмента для понимания и отслеживания образа жизни позволит предотвратить неинфекционные заболевания, связанные с нездоровыми тенденциями и рискованными профилями (например, ожирение, депрессия и т. Д.). Кроме того, жизненные журналы, используемые в качестве инструмента восстановления когнитивных навыков, позволят предотвратить когнитивные и функциональные нарушения у пожилых людей.

Совсем недавно эгоцентрические камеры использовались для изучения познания человека и животных, социального взаимодействия человека и человека, взаимодействия человека и робота, человеческого опыта в сложных задачах. Другие приложения включают навигационные / вспомогательные технологии для слепых, ^[22] мониторинг и поддержку промышленных рабочих процессов ^[23]^[24] и интерфейсы дополненной реальности . ^[5]

Смотрите также

Рекомендации

^ Введение в 3-й семинар по эгоцентрическому видению (от первого лица), Стив Манн, Крис М. Китани, Йонг Джэ Ли, М.С. Рю и Алиреза Фатхи, Конференция IEEE по компьютерному зрению и семинарам по распознаванию образов 2160-7508 / 14, 2014 г., IEEE DOI 10.1109 / CVPRW.2014.1338272014
Перейти ↑ Mann, S. (1998). Гуманистические вычисления: «WearComp» как новая структура и приложение для интеллектуальной обработки сигналов. Труды IEEE, 86 (11), 2123-2151.
^ Хайкин, Саймон С. и Барт Коско. Интеллектуальная обработка сигналов. Wiley-IEEE Press, 2001.
↑ «Wearable AI», Стив Манн, Ли-Те Ченг, Джон Робинсон, Каору Суми, Тоёаки Нисида, Соичиро Мацусита, Омер Фарук Озер, Огуз Озун, К. Энсел Тюзель, Волкан Аталай, А. Энис Четин, Джошуа Анхальт, Асим Smailagic, Daniel P. Siewiorek, Francine Gemperle, Daniel Salber, Weber, Джим Бек, Джим Дженнингс и Дэвид А. Росс, IEEE Intelligent Systems 16 (3), 2001, страницы с 0 (обложка) по 53.
^ ^a ^b Манн, С. (2000, октябрь). Telepointer: полностью автономная носимая визуальная дополненная реальность, свободная от рук, без головных уборов и без какой-либо инфраструктуры. В сборнике статей. Четвертый международный симпозиум по носимым компьютерам (стр. 177-178). IEEE.
Перейти ↑ Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... & Foster, C. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.
^ Боланос, М., Dimiccoli, М., & Радева, P. (2017). К повествованию из визуальных журналов жизни: обзор. IEEE Transactions по человеко-машинным системам, 47 (1), 77-90.
^ Kanade, Т., & Эбер, М. (2012). Вид от первого лица. Труды IEEE, 100 (8), 2442-2453.
^ Фатхи, А. Фархади, А., и Rehg, JM (2011, ноябрь). Понимание эгоцентрической деятельности. In Computer Vision (ICCV), Международная конференция IEEE 2011 г. (стр. 407-414). IEEE.
^ Фатхи, А., Ходжинс, JK, и Rehg, JM (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.
^ Poleg Ю., Арора, C, & Пелегом, С. (2014). Временная сегментация эгоцентрических видеороликов. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 2537-2544).
^ Ли, YJ, Гош, J., & Grauman, К. (2012, июнь). Обнаружение важных людей и объектов для эгоцентрического видео-резюмирования. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1346-1353). IEEE.
Перейти ↑ Park, HS, Jain, E., & Sheikh, Y. (2012). Социальная значимость в 3D с помощью налобных камер. В достижениях в системах обработки нейронной информации (стр. 422-430).
^ Су, YC, и Grauman, К. (2016, октябрь). Обнаружение вовлеченности в эгоцентрическом видео. В Европейской конференции по компьютерному зрению (стр. 454-471). Издательство Springer International.
^ Фатхи, А., Ходжинс, JK, и Rehg, JM (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.
^ Rogez, Г., Supancic, JS, & Раманана, D. (2015). Распознавание позы от первого лица с использованием эгоцентрических рабочих мест. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4325-4333).
^ Манн, С., Джанзен Р., Ai, Т., Yasrebi С.Н., Kawwa, J., & Ali, MA (2014, май). Toposculpting: вычислительная светопись и носимая вычислительная фотография для абакографических пользовательских интерфейсов. В области электротехники и вычислительной техники (CCECE), 27-я канадская конференция IEEE 2014 г. (стр. 1-10). IEEE.
^ Bettadapura В., Essa И., и Pantofaru, C. (2015, январь). Эгоцентрическая локализация поля зрения с помощью устройств обзора от первого лица. In Applications of Computer Vision (WACV), Зимняя конференция IEEE 2015 г. (стр. 626-633). IEEE
↑ Ji, P., Song, A., Xiong, P., Yi, P., Xu, X., & Li, H. (2017). Система контроля положения рук на основе эгоцентрического зрения для роботов-разведчиков. Журнал интеллектуальных и робототехнических систем, 87 (3-4), 583-599.
^ Бухари, SZ, & Китани, KM (2016, ноябрь). Долгосрочное прогнозирование деятельности с использованием видения от первого лица. В Азиатской конференции по компьютерному зрению (стр. 346-360). Спрингер, Чам
Перейти ↑ Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... & Foster, C. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.
^ Яги, Т., Мангалама, К., Yonetani, Р., & Сато, Y. (2017). Локализация будущего человека в видео от первого лица. Препринт arXiv arXiv : 1711.11217 .
^ Leelasawassuk Т., Damen Д., и Майоль-Куэвас, W. (2017, март). Автоматизированный сбор и предоставление вспомогательных инструкций по выполнению задач с помощью компьютера в очках: система GlaciAR
^ Эдмандс, СР, Rozga, А., Ли Ю., Karp, Е.А., Ибаньес Л.В., Rehg, JM, и камень, WL (2017). Краткий отчет: Использование камеры обзора для измерения взгляда у маленьких детей с расстройством аутистического спектра во время натуралистических социальных взаимодействий: экспериментальное исследование. Журнал аутизма и нарушений развития, 47 (3), 898-904.

[1] Введение в 3-й семинар по эгоцентрическому видению (от первого лица), Стив Манн, Крис М. Китани, Йонг Джэ Ли, М.С. Рю и Алиреза Фатхи, Конференция IEEE по компьютерному зрению и семинарам по распознаванию образов 2160-7508 / 14, 2014 г., IEEE DOI 10.1109 / CVPRW.2014.1338272014

[2] Перейти ↑ Mann, S. (1998). Гуманистические вычисления: «WearComp» как новая структура и приложение для интеллектуальной обработки сигналов. Труды IEEE, 86 (11), 2123-2151.

[3] Хайкин, Саймон С. и Барт Коско. Интеллектуальная обработка сигналов. Wiley-IEEE Press, 2001.

[4] «Wearable AI», Стив Манн, Ли-Те Ченг, Джон Робинсон, Каору Суми, Тоёаки Нисида, Соичиро Мацусита, Омер Фарук Озер, Огуз Озун, К. Энсел Тюзель, Волкан Аталай, А. Энис Четин, Джошуа Анхальт, Асим Smailagic, Daniel P. Siewiorek, Francine Gemperle, Daniel Salber, Weber, Джим Бек, Джим Дженнингс и Дэвид А. Росс, IEEE Intelligent Systems 16 (3), 2001, страницы с 0 (обложка) по 53.

[Mann-5] Манн, С. (2000, октябрь). Telepointer: полностью автономная носимая визуальная дополненная реальность, свободная от рук, без головных уборов и без какой-либо инфраструктуры. В сборнике статей. Четвертый международный симпозиум по носимым компьютерам (стр. 177-178). IEEE.

[6] Перейти ↑ Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... & Foster, C. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.

[7] Боланос, М., Dimiccoli, М., & Радева, P. (2017). К повествованию из визуальных журналов жизни: обзор. IEEE Transactions по человеко-машинным системам, 47 (1), 77-90.

[8] Kanade, Т., & Эбер, М. (2012). Вид от первого лица. Труды IEEE, 100 (8), 2442-2453.

[9] Фатхи, А. Фархади, А., и Rehg, JM (2011, ноябрь). Понимание эгоцентрической деятельности. In Computer Vision (ICCV), Международная конференция IEEE 2011 г. (стр. 407-414). IEEE.

[10] Фатхи, А., Ходжинс, JK, и Rehg, JM (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.

[11] Poleg Ю., Арора, C, & Пелегом, С. (2014). Временная сегментация эгоцентрических видеороликов. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 2537-2544).

[12] Ли, YJ, Гош, J., & Grauman, К. (2012, июнь). Обнаружение важных людей и объектов для эгоцентрического видео-резюмирования. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1346-1353). IEEE.

[13] Перейти ↑ Park, HS, Jain, E., & Sheikh, Y. (2012). Социальная значимость в 3D с помощью налобных камер. В достижениях в системах обработки нейронной информации (стр. 422-430).

[14] Су, YC, и Grauman, К. (2016, октябрь). Обнаружение вовлеченности в эгоцентрическом видео. В Европейской конференции по компьютерному зрению (стр. 454-471). Издательство Springer International.

[15] Фатхи, А., Ходжинс, JK, и Rehg, JM (2012, июнь). Социальные взаимодействия: взгляд от первого лица. В области компьютерного зрения и распознавания образов (CVPR), Конференция IEEE 2012 г. (стр. 1226-1233). IEEE.

[16] Rogez, Г., Supancic, JS, & Раманана, D. (2015). Распознавание позы от первого лица с использованием эгоцентрических рабочих мест. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 4325-4333).

[17] Манн, С., Джанзен Р., Ai, Т., Yasrebi С.Н., Kawwa, J., & Ali, MA (2014, май). Toposculpting: вычислительная светопись и носимая вычислительная фотография для абакографических пользовательских интерфейсов. В области электротехники и вычислительной техники (CCECE), 27-я канадская конференция IEEE 2014 г. (стр. 1-10). IEEE.

[18] Bettadapura В., Essa И., и Pantofaru, C. (2015, январь). Эгоцентрическая локализация поля зрения с помощью устройств обзора от первого лица. In Applications of Computer Vision (WACV), Зимняя конференция IEEE 2015 г. (стр. 626-633). IEEE

[19] Ji, P., Song, A., Xiong, P., Yi, P., Xu, X., & Li, H. (2017). Система контроля положения рук на основе эгоцентрического зрения для роботов-разведчиков. Журнал интеллектуальных и робототехнических систем, 87 (3-4), 583-599.

[20] Бухари, SZ, & Китани, KM (2016, ноябрь). Долгосрочное прогнозирование деятельности с использованием видения от первого лица. В Азиатской конференции по компьютерному зрению (стр. 346-360). Спрингер, Чам

[21] Перейти ↑ Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... & Foster, C. (2013). Носимые камеры на здоровье. Американский журнал профилактической медицины, 44 (3), 320-323.

[22] Яги, Т., Мангалама, К., Yonetani, Р., & Сато, Y. (2017). Локализация будущего человека в видео от первого лица. Препринт arXiv arXiv : 1711.11217 .

[23] Leelasawassuk Т., Damen Д., и Майоль-Куэвас, W. (2017, март). Автоматизированный сбор и предоставление вспомогательных инструкций по выполнению задач с помощью компьютера в очках: система GlaciAR

[24] Эдмандс, СР, Rozga, А., Ли Ю., Karp, Е.А., Ибаньес Л.В., Rehg, JM, и камень, WL (2017). Краткий отчет: Использование камеры обзора для измерения взгляда у маленьких детей с расстройством аутистического спектра во время натуралистических социальных взаимодействий: экспериментальное исследование. Журнал аутизма и нарушений развития, 47 (3), 898-904.

[1]