Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Объекты, обнаруженные с помощью модуля Deep Neural Network (dnn) OpenCV с использованием модели YOLOv3, обученной на наборе данных COCO, способной обнаруживать объекты 80 общих классов.

Обнаружение объектов - это компьютерная технология, связанная с компьютерным зрением и обработкой изображений, которая занимается обнаружением экземпляров семантических объектов определенного класса (таких как люди, здания или автомобили) в цифровых изображениях и видео. [1] Хорошо изученные области обнаружения объектов включают обнаружение лиц и обнаружение пешеходов . Обнаружение объектов находит применение во многих областях компьютерного зрения, включая поиск изображений и видеонаблюдение .

Использует [ редактировать ]

Обнаружение объектов дороги

Он широко используется в задачах компьютерного зрения, таких как аннотации изображений , [2] распознавание активности , [3] обнаружение лиц , распознавание лиц , совместная сегментация видеообъектов . Он также используется для отслеживания объектов , например, для отслеживания мяча во время футбольного матча, отслеживания движения биты для крикета или отслеживания человека на видео.

Концепция [ править ]

Каждый класс объектов имеет свои собственные особенности, которые помогают в классификации класса - например, все круги круглые. Обнаружение класса объекта использует эти специальные функции. Например, при поиске кругов ищутся объекты, находящиеся на определенном расстоянии от точки (т. Е. Центра). Точно так же при поиске квадратов необходимы объекты, перпендикулярные углам и имеющие равные стороны. Аналогичный подход используется для идентификации лица, когда можно найти глаза, нос и губы, а также такие особенности, как цвет кожи и расстояние между глазами.

Методы [ править ]

Сравнение скорости и точности различных детекторов [4] в наборе данных Microsoft COCO testdev http://mscoco.org (все значения находятся в статьях авторов этих алгоритмов https://arxiv.org )

Методы обнаружения объектов обычно относятся либо к подходам на основе машинного обучения, либо к подходам на основе глубокого обучения . Для подходов к машинному обучению становится необходимым сначала определить функции с помощью одного из методов, приведенных ниже, а затем использовать такую ​​методику, как машина опорных векторов (SVM), чтобы выполнить классификацию. С другой стороны, методы глубокого обучения могут выполнять сквозное обнаружение объектов без специального определения функций и обычно основаны на сверточных нейронных сетях (CNN).

  • Подходы к машинному обучению:
    • Среда обнаружения объектов Виолы – Джонса на основе функций Хаара
    • Масштабно-инвариантное преобразование признаков (SIFT)
    • Гистограмма ориентированных градиентов (HOG) функций [5]
  • Подходы к глубокому обучению:
    • Предложения по регионам (R-CNN, [6] Fast R-CNN, [7] Faster R-CNN, [8] каскад R-CNN. [9] )
    • Детектор Single Shot MultiBox (SSD) [10]
    • Вы смотрите только один раз (YOLO) [11] [12] [13] [4]
    • Нейронная сеть однократного уточнения для обнаружения объектов (RefineDet) [14]
    • Retina-Net [15] [9]
    • Деформируемые сверточные сети [16] [17]

См. Также [ править ]

  • Обнаружение функций (компьютерное зрение)
  • Обнаружение движущегося объекта
  • Схема распознавания объекта
  • Алгоритм Текномо – Фернандеса

Ссылки [ править ]

  1. ^ Дасиопулу, Стаматия и др. « Обнаружение семантических видеообъектов с помощью знаний ». IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
  2. ^ Лин Гуань; Ифэн Хэ; Сунь-Юань Кунг (1 марта 2012 г.). Обработка мультимедийных изображений и видео . CRC Press. стр. 331–. ISBN 978-1-4398-3087-1.
  3. ^ Ву, Цзяньсинь и др. « Масштабируемый подход к распознаванию активности на основе использования объекта ». 2007 IEEE 11-я международная конференция по компьютерному зрению. IEEE, 2007.
  4. ^ a b Бочковский, Алексей (2020). «Yolov4: Оптимальная скорость и точность обнаружения объектов». arXiv : 2004.10934 [ cs.CV ].
  5. ^ Dalal, Navneet (2005). «Гистограммы ориентированных градиентов для обнаружения человека» (PDF) . Компьютерное зрение и распознавание образов . 1 .
  6. ^ Росс, Гиршик (2014). «Богатые иерархии функций для точного обнаружения объектов и семантической сегментации» (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов . IEEE: 580–587. arXiv : 1311,2524 . DOI : 10.1109 / CVPR.2014.81 . ISBN  978-1-4799-5118-5. S2CID  215827080 .
  7. ^ Гиршик, Росс (2015). "Быстрый Р-CNN" (PDF) . Труды Международной конференции IEEE по компьютерному зрению : 1440–1448. arXiv : 1504.08083 . Bibcode : 2015arXiv150408083G .
  8. ^ Шаоцин, Рен (2015). «Быстрее R-CNN». Достижения в системах обработки нейронной информации . arXiv : 1506.01497 .
  9. ^ а б Панг, Цзянмяо; Чен, Кай; Ши, Цзяньпин; Фэн, Хуацзюнь; Оуян, Ванли; Лин, Дахуа (2019-04-04). "Libra R-CNN: к сбалансированному обучению для обнаружения объектов". arXiv : 1904.02701v1 [ cs.CV ].
  10. ^ Лю, Вэй (октябрь 2016 г.). «SSD: одноразовый мультиблок детектор». Компьютерное зрение - ECCV 2016 . Европейская конференция по компьютерному зрению . Конспект лекций по информатике. 9905 . С. 21–37. arXiv : 1512.02325 . DOI : 10.1007 / 978-3-319-46448-0_2 . ISBN 978-3-319-46447-3. S2CID  2141740 .
  11. ^ Редмон, Джозеф (2016). «Вы только посмотрите: единое обнаружение объектов в реальном времени». Труды конференции IEEE по компьютерному зрению и распознаванию образов . arXiv : 1506.02640 . Bibcode : 2015arXiv150602640R .
  12. ^ Редмон, Джозеф (2017). «YOLO9000: лучше, быстрее, сильнее». arXiv : 1612.08242 [ cs.CV ].
  13. ^ Редмон, Джозеф (2018). «Yolov3: постепенное улучшение». arXiv : 1804.02767 [ cs.CV ].
  14. ^ Чжан, Шифэн (2018). "Нейронная сеть однократного уточнения для обнаружения объектов". Труды конференции IEEE по компьютерному зрению и распознаванию образов : 4203–4212. arXiv : 1711.06897 . Bibcode : 2017arXiv171106897Z .
  15. Перейти ↑ Lin, Tsung-Yi (2020). «Потеря фокуса при обнаружении плотных объектов». IEEE Transactions по анализу шаблонов и машинному анализу . 42 (2): 318–327. arXiv : 1708.02002 . Bibcode : 2017arXiv170802002L . DOI : 10.1109 / TPAMI.2018.2858826 . PMID 30040631 . S2CID 47252984 .  
  16. ^ Чжу, Сичжоу (2018). «Деформируемые ConvNets v2: более деформируемые, лучшие результаты». arXiv : 1811.11168 [ cs.CV ].
  17. ^ Дай, Цзифэн (2017). «Деформируемые сверточные сети». arXiv : 1703.06211 [ cs.CV ].
  • «Обнаружение класса объекта» . Vision.eecs.ucf.edu. Архивировано из оригинала на 2013-07-14 . Проверено 9 октября 2013 .
  • «ETHZ - Лаборатория компьютерного зрения: Публикации» . Vision.ee.ethz.ch. Архивировано из оригинала на 2013-06-03 . Проверено 9 октября 2013 .

Внешние ссылки [ править ]

  • Обнаружение нескольких классов объектов
  • Локализация пространственно-временного действия
  • Обнаружение и совместная сегментация видеообъектов