Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Примеры видеокадров и аннотаций их объектной совместной сегментации (достоверная информация) в наборе данных Noisy-ViDiSeg [1] . Сегменты объекта обозначены красным краем.

В компьютерном зрении , объектом совместной сегментации является частным случаем сегментации изображений , которое определяется как совместно сегментирования семантически подобных объектов в нескольких изображений или видеокадров. [2] [3]

Проблемы [ править ]

Часто бывает сложно извлечь маски сегментации цели / объекта из зашумленной коллекции изображений или видеокадров, что включает обнаружение объекта в сочетании с сегментацией . Шумная коллекция означает , что объект / цель присутствует эпизодически в наборе изображений или объекта / мишени исчезает с перерывами на протяжении всего видео интереса. Ранние методы [4] [5] обычно включают представления среднего уровня, такие как предложения объектов .

Методы на основе динамических сетей Маркова [ править ]

Процесс вывода двух связанных динамических сетей Маркова для получения совместного обнаружения и сегментации видеообъектов [1]
Совместная структура обнаружения объектов и совместной сегментации на основе связанных динамических сетей Маркова [1] .

Совместный метод обнаружения объектов и совместной сегментации, основанный на связанных динамических марковских сетях , был недавно предложен [1], который требует значительных улучшений устойчивости к нерелевантным / зашумленным видеокадрам.

В отличие от предыдущих попыток, которые удобно предполагали постоянное присутствие целевых объектов во всем входном видео, этот связанный алгоритм на основе двойной динамической сети Маркова одновременно выполняет задачи обнаружения и сегментации с двумя соответствующими сетями Маркова, совместно обновляемыми посредством распространения убеждений.

В частности, марковская сеть, отвечающая за сегментацию, инициализируется суперпикселями и предоставляет информацию для своего марковского аналога, отвечающего за задачу обнаружения объектов. И наоборот, сеть Маркова, отвечающая за обнаружение, строит граф предложения объекта с входными данными, включая трубки пространственно-временной сегментации.

Методы, основанные на вырезании графиков [ править ]

Оптимизация вырезания графа - популярный инструмент в компьютерном зрении, особенно в более ранних приложениях сегментации изображений . В качестве расширения регулярных разрезов графов предлагается многоуровневое разрезание гиперграфов [6] для учета более сложных соответствий высокого порядка между видеогруппами, выходящих за рамки типичных парных корреляций.

С таким расширением гиперграфа множество модальностей соответствий, включая внешний вид на низком уровне, заметность, когерентное движение и высокоуровневые функции, такие как области объекта, могут быть легко включены в вычисление гиперребра. Кроме того, в качестве основного преимущества перед смежностью подхода , основанной, Гиперграф неявно сохраняет более сложные соответствия между его вершинами, с гиперребро весами удобно вычисленных собственным значениями разложением из лапласовских матриц .

Методы на основе CNN / LSTM [ править ]

Обзор временной локализации от грубого к мелкому в [7] (а) Грубая локализация. Учитывая необрезанное видео, мы сначала создаем видеоклипы с учетом особенностей с помощью скользящих окон переменной длины. Сеть предложений решает, содержит ли видеоклип какие-либо действия (таким образом, клип добавляется к набору кандидатов) или чистый фон (так что клип напрямую отбрасывается). Последующая сеть классификации предсказывает конкретный класс действия для каждого клипа-кандидата и выводит оценки классификации и метки действий. (б) Прекрасная локализация. С помощью оценок классификации и меток действий из предыдущей грубой локализации выполняется дальнейшее прогнозирование категории видео и получаются ее начальный и конечный кадры.
Блок-схема сегмента-трубки детектора локализации пространственно-временного действия. [7] В качестве входных данных необрезанное видео содержит несколько кадров действий ( например , все действия в видео парного фигурного катания), причем только часть этих кадров принадлежит соответствующей категории ( например , DeathSpirals). Обычно предшествующие и последующие действия не имеют отношения к делу (фон). Детектор «Сегмент-трубка» итеративно чередует оптимизацию временной локализации и пространственной сегментации. Конечный результат представляет собой последовательность покадровых масок сегментации с точными начальными / конечными кадрами, обозначенными красным фрагментом внизу, а фон отмечен зелеными фрагментами внизу.

В приложениях для локализации действия совместная сегментация объектов также реализована в виде пространственно-временного детектора сегмент-трубка . [7] Вдохновленный недавними попытками локализации пространственно-временного действия с помощью тублеток (последовательностей ограничивающих прямоугольников), Le et al.представить новый детектор локализации пространственно-временного действия Segment-tube, который состоит из последовательностей покадровых масок сегментации. Этот детектор сегментной трубки может временно определять начальный / конечный кадр каждой категории действий при наличии предшествующих / последующих действий помех в необрезанном видео. Одновременно с этим детектор сегментной трубки создает покадровые маски сегментации вместо ограничивающих рамок, обеспечивая превосходную пространственную точность для трубок. Это достигается чередованием итеративной оптимизации между временной локализацией действия и пространственной сегментацией действия.

Предлагаемый сегментно-трубчатый детектор показан на схеме справа. Образец входных данных представляет собой необрезанное видео, содержащее все кадры в видео парного фигурного катания, причем только часть этих кадров принадлежит соответствующей категории (например, DeathSpirals). Инициализированный сегментацией изображения на основе значимости на отдельных кадрах, этот метод сначала выполняет этап временной локализации действия с каскадными 3D CNN и LSTM и точно определяет начальный и конечный кадры целевого действия с помощью стратегии от грубого к точному. Впоследствии детектор сегментной трубки уточняет покадровую пространственную сегментацию с вырезанием графа.фокусируясь на соответствующих кадрах, идентифицированных на этапе локализации временного действия. Оптимизация чередуется между локализацией временного действия и сегментацией пространственного действия итеративным образом. После практической конвергенции конечные результаты пространственно-временной локализации действия получаются в формате последовательности масок сегментации по кадрам (нижняя строка в блок-схеме) с точными начальными / конечными кадрами.

См. Также [ править ]

  • Сегментация изображения
  • Обнаружение объекта
  • Анализ видеоконтента
  • Анализ изображений
  • Цифровая обработка изображений
  • Распознавание активности
  • Компьютерное зрение
  • Сверточная нейронная сеть
  • Долговременная кратковременная память

Ссылки [ править ]

  1. ^ а б в г Лю, Цзыи; Ван, Ле; Хуа, банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Инь; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических марковских сетей» (PDF) . IEEE Transactions по обработке изображений . 27 (12): 5840–5853. Bibcode : 2018ITIP ... 27.5840L . DOI : 10.1109 / tip.2018.2859622 . ISSN  1057-7149 . PMID  30059300 . S2CID  51867241 .
  2. ^ Висенте, Сара; Ротер, Карстен; Колмогоров, Владимир (2011). Сосегментация объектов . IEEE. DOI : 10.1109 / cvpr.2011.5995530 . ISBN 978-1-4577-0394-2.
  3. ^ Чен, Дин-Цзе; Чен, Хванн-Цзонг; Чанг, Лун-Вэнь (2012). Сегментация видеообъектов . Нью-Йорк, Нью-Йорк, США: ACM Press. DOI : 10.1145 / 2393347.2396317 . ISBN 978-1-4503-1089-5.
  4. Ли, Ён Джэ; Ким, Джечоль; Грауман, Кристен (2011). Ключевые сегменты для сегментации видеообъектов . IEEE. DOI : 10.1109 / iccv.2011.6126471 . ISBN 978-1-4577-1102-2.
  5. ^ Ма, Тяньян; Латецки, Лонгин Ян. Клики максимального веса с ограничениями мьютекса для сегментации видеообъектов . IEEE CVPR 2012 . DOI : 10.1109 / CVPR.2012.6247735 .
  6. ^ Ван, Ле; Lv, Xin; Чжан, Цилинь; Ню, Чжэньсин; Чжэн, Наньнин; Хуа, банда (2020). «Сосегментация объектов в зашумленных видео с многоуровневым гиперграфом» (PDF) . Транзакции IEEE в мультимедиа . IEEE: 1. DOI : 10,1109 / tmm.2020.2995266 . ISSN 1520-9210 .  
  7. ^ a b c Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (22.05.2018). «Сегмент-трубка: пространственно-временная локализация действия в видео без обрезки с покадровой сегментацией» (PDF) . Датчики . MDPI AG. 18 (5): 1657. DOI : 10,3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 .     Материал был скопирован из этого источника, доступного по международной лицензии Creative Commons Attribution 4.0 .