Обнаружение объекта

В этой статье слишком много ссылок на первоисточники . Пожалуйста, улучшите это, добавив вторичные или третичные источники . ( Октябрь 2018 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Объекты, обнаруженные с помощью модуля Deep Neural Network (dnn) OpenCV, с использованием модели YOLOv3, обученной на наборе данных COCO, способной обнаруживать объекты 80 общих классов.

Обнаружение объектов - это компьютерная технология, связанная с компьютерным зрением и обработкой изображений, которая занимается обнаружением экземпляров семантических объектов определенного класса (таких как люди, здания или автомобили) в цифровых изображениях и видео. ^[1] Хорошо изученные области обнаружения объектов включают обнаружение лиц и пешеходов . Обнаружение объектов находит применение во многих областях компьютерного зрения, включая поиск изображений и видеонаблюдение .

Использует [ редактировать ]

Обнаружение объектов дороги

Он широко используется в задачах компьютерного зрения, таких как аннотирование изображений , ^[2] распознавание активности , ^[3] обнаружение лиц , распознавание лиц , совместная сегментация видеообъектов . Он также используется для отслеживания объектов , например для отслеживания мяча во время футбольного матча, отслеживания движения биты для крикета или отслеживания человека на видео.

Концепция [ править ]

У каждого класса объектов есть свои особенности, которые помогают в классификации класса - например, все круги круглые. Обнаружение класса объекта использует эти специальные функции. Например, при поиске кругов ищутся объекты, находящиеся на определенном расстоянии от точки (т. Е. Центра). Точно так же при поиске квадратов необходимы объекты, которые перпендикулярны углам и имеют одинаковую длину сторон. Аналогичный подход используется для идентификации лица, где можно найти глаза, нос и губы, а также такие особенности, как цвет кожи и расстояние между глазами.

Методы [ править ]

Сравнение скорости и точности различных детекторов ^[4] в наборе данных Microsoft COCO testdev http://mscoco.org (все значения находятся в статьях https://arxiv.org авторов этих алгоритмов)

Методы обнаружения объектов обычно относятся к нейросетевым или ненейронным подходам. Для ненейронных подходов становится необходимым сначала определить признаки, используя один из методов, приведенных ниже, а затем использовать такой метод, как машина опорных векторов (SVM), чтобы выполнить классификацию. С другой стороны, нейронные методы могут выполнять сквозное обнаружение объектов без специального определения функций и обычно основаны на сверточных нейронных сетях (CNN).

Ненейронные подходы:
- Среда обнаружения объектов Виолы – Джонса на основе функций Хаара
- Масштабно-инвариантное преобразование признаков (SIFT)
- Гистограмма ориентированных градиентов (HOG) признаков ^[5]
Подходы нейронной сети:
- Предложения по регионам (R-CNN, ^[6] Fast R-CNN, ^[7] Faster R-CNN, ^[8] каскад R-CNN. ^[9] )
- Детектор Single Shot MultiBox (SSD) ^[10]
- Вы смотрите только один раз (YOLO) ^[11]^[12]^[13]^[4]
- Нейронная сеть с однократным уточнением для обнаружения объектов (RefineDet) ^[14]
- Retina-Net ^[15]^[9]
- Деформируемые сверточные сети ^[16]^[17]

См. Также [ править ]

Обнаружение функций (компьютерное зрение)
Обнаружение движущегося объекта
Схема распознавания объекта
Алгоритм Текномо – Фернандеса

Ссылки [ править ]

^ Дасиопулу, Стаматия и др. « Обнаружение семантических видеообъектов с помощью знаний ». IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
^ Лин Гуань; Ифэн Хэ; Сунь-Юань Кунг (1 марта 2012 г.). Обработка мультимедийных изображений и видео . CRC Press. стр. 331–. ISBN 978-1-4398-3087-1.
^ Ву, Цзяньсинь и др. « Масштабируемый подход к распознаванию активности, основанный на использовании объекта ». 2007 IEEE 11-я международная конференция по компьютерному зрению. IEEE, 2007.
^ a b Бочковский, Алексей (2020). «Yolov4: Оптимальная скорость и точность обнаружения объектов». arXiv : 2004.10934 [ cs.CV ].
^ Dalal, Navneet (2005). «Гистограммы ориентированных градиентов для обнаружения человека» (PDF) . Компьютерное зрение и распознавание образов . 1 .
^ Росс, Гиршик (2014). «Богатые иерархии функций для точного обнаружения объектов и семантической сегментации» (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов . IEEE: 580–587. arXiv : 1311,2524 . DOI : 10.1109 / CVPR.2014.81 . ISBN 978-1-4799-5118-5. S2CID 215827080 .
^ Гиршик, Росс (2015). "Fast R-CNN" (PDF) . Труды Международной конференции IEEE по компьютерному зрению : 1440–1448. arXiv : 1504.08083 . Bibcode : 2015arXiv150408083G .
^ Shaoqing, Ren (2015). «Быстрее R-CNN». Достижения в системах обработки нейронной информации . arXiv : 1506.01497 .
^ а б Панг, Цзянмяо; Чен, Кай; Ши, Цзяньпин; Фэн, Хуацзюнь; Оуян, Ванли; Лин, Дахуа (2019-04-04). "Libra R-CNN: к сбалансированному обучению для обнаружения объектов". arXiv : 1904.02701v1 [ cs.CV ].
^ Лю, Вэй (октябрь 2016 г.). «SSD: одноразовый мультибоксовый детектор». Компьютерное зрение - ECCV 2016 . Европейская конференция по компьютерному зрению . Конспект лекций по информатике. 9905 . С. 21–37. arXiv : 1512.02325 . DOI : 10.1007 / 978-3-319-46448-0_2 . ISBN 978-3-319-46447-3. S2CID 2141740 .
^ Редмон, Джозеф (2016). «Вы смотрите только один раз: единое обнаружение объектов в реальном времени». Труды конференции IEEE по компьютерному зрению и распознаванию образов . arXiv : 1506.02640 . Bibcode : 2015arXiv150602640R .
^ Редмон, Джозеф (2017). «YOLO9000: лучше, быстрее, сильнее». arXiv : 1612.08242 [ cs.CV ].
^ Редмон, Джозеф (2018). «Yolov3: постепенное улучшение». arXiv : 1804.02767 [ cs.CV ].
^ Чжан, Шифэн (2018). «Нейронная сеть с однократным уточнением для обнаружения объектов». Труды конференции IEEE по компьютерному зрению и распознаванию образов : 4203–4212. arXiv : 1711.06897 . Bibcode : 2017arXiv171106897Z .
Перейти ↑ Lin, Tsung-Yi (2020). «Потеря фокусировки при обнаружении плотных объектов». IEEE Transactions по анализу шаблонов и машинному анализу . 42 (2): 318–327. arXiv : 1708.02002 . Bibcode : 2017arXiv170802002L . DOI : 10.1109 / TPAMI.2018.2858826 . PMID 30040631 . S2CID 47252984 .
^ Чжу, Сичжоу (2018). «Деформируемые ConvNets v2: более деформируемые, лучшие результаты». arXiv : 1811.11168 [ cs.CV ].
^ Дай, Цзифэн (2017). «Деформируемые сверточные сети». arXiv : 1703.06211 [ cs.CV ].

«Обнаружение класса объекта» . Vision.eecs.ucf.edu. Архивировано из оригинала на 2013-07-14 . Проверено 9 октября 2013 .
«ETHZ - Лаборатория компьютерного зрения: Публикации» . Vision.ee.ethz.ch. Архивировано из оригинала на 2013-06-03 . Проверено 9 октября 2013 .

Внешние ссылки [ править ]

Обнаружение нескольких классов объектов
Локализация пространственно-временного действия
Обнаружение и совместная сегментация видеообъектов

[1] Дасиопулу, Стаматия и др. « Обнаружение семантических видеообъектов с помощью знаний ». IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.

[GuanHe2012-2] Лин Гуань; Ифэн Хэ; Сунь-Юань Кунг (1 марта 2012 г.). Обработка мультимедийных изображений и видео . CRC Press. стр. 331–. ISBN 978-1-4398-3087-1.

[3] Ву, Цзяньсинь и др. « Масштабируемый подход к распознаванию активности, основанный на использовании объекта ». 2007 IEEE 11-я международная конференция по компьютерному зрению. IEEE, 2007.

[yolov4-4] Бочковский, Алексей (2020). «Yolov4: Оптимальная скорость и точность обнаружения объектов». arXiv : 2004.10934 [ cs.CV ].

[5] Dalal, Navneet (2005). «Гистограммы ориентированных градиентов для обнаружения человека» (PDF) . Компьютерное зрение и распознавание образов . 1 .

[6] Росс, Гиршик (2014). «Богатые иерархии функций для точного обнаружения объектов и семантической сегментации» (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов . IEEE: 580–587. arXiv : 1311,2524 . DOI : 10.1109 / CVPR.2014.81 . ISBN 978-1-4799-5118-5. S2CID 215827080 .

[7] Гиршик, Росс (2015). "Fast R-CNN" (PDF) . Труды Международной конференции IEEE по компьютерному зрению : 1440–1448. arXiv : 1504.08083 . Bibcode : 2015arXiv150408083G .

[8] Shaoqing, Ren (2015). «Быстрее R-CNN». Достижения в системах обработки нейронной информации . arXiv : 1506.01497 .

[Pang_Chen_Shi_Feng_2019-9] а б Панг, Цзянмяо; Чен, Кай; Ши, Цзяньпин; Фэн, Хуацзюнь; Оуян, Ванли; Лин, Дахуа (2019-04-04). "Libra R-CNN: к сбалансированному обучению для обнаружения объектов". arXiv : 1904.02701v1 [ cs.CV ].

[10] Лю, Вэй (октябрь 2016 г.). «SSD: одноразовый мультибоксовый детектор». Компьютерное зрение - ECCV 2016 . Европейская конференция по компьютерному зрению . Конспект лекций по информатике. 9905 . С. 21–37. arXiv : 1512.02325 . DOI : 10.1007 / 978-3-319-46448-0_2 . ISBN 978-3-319-46447-3. S2CID 2141740 .

[11] Редмон, Джозеф (2016). «Вы смотрите только один раз: единое обнаружение объектов в реальном времени». Труды конференции IEEE по компьютерному зрению и распознаванию образов . arXiv : 1506.02640 . Bibcode : 2015arXiv150602640R .

[12] Редмон, Джозеф (2017). «YOLO9000: лучше, быстрее, сильнее». arXiv : 1612.08242 [ cs.CV ].

[13] Редмон, Джозеф (2018). «Yolov3: постепенное улучшение». arXiv : 1804.02767 [ cs.CV ].

[14] Чжан, Шифэн (2018). «Нейронная сеть с однократным уточнением для обнаружения объектов». Труды конференции IEEE по компьютерному зрению и распознаванию образов : 4203–4212. arXiv : 1711.06897 . Bibcode : 2017arXiv171106897Z .

[15] Перейти ↑ Lin, Tsung-Yi (2020). «Потеря фокусировки при обнаружении плотных объектов». IEEE Transactions по анализу шаблонов и машинному анализу . 42 (2): 318–327. arXiv : 1708.02002 . Bibcode : 2017arXiv170802002L . DOI : 10.1109 / TPAMI.2018.2858826 . PMID 30040631 . S2CID 47252984 .

[16] Чжу, Сичжоу (2018). «Деформируемые ConvNets v2: более деформируемые, лучшие результаты». arXiv : 1811.11168 [ cs.CV ].

[17] Дай, Цзифэн (2017). «Деформируемые сверточные сети». arXiv : 1703.06211 [ cs.CV ].

[1]