В компьютерном зрении , объектом совместной сегментации является частным случаем сегментации изображений , которое определяется как совместно сегментирования семантически подобных объектов в нескольких изображений или видеокадров. [2] [3]
Проблемы [ править ]
Часто бывает сложно извлечь маски сегментации цели / объекта из зашумленной коллекции изображений или видеокадров, что включает обнаружение объекта в сочетании с сегментацией . Шумная коллекция означает , что объект / цель присутствует эпизодически в наборе изображений или объекта / мишени исчезает с перерывами на протяжении всего видео интереса. Ранние методы [4] [5] обычно включают представления среднего уровня, такие как предложения объектов .
Методы на основе динамических сетей Маркова [ править ]
Совместный метод обнаружения объектов и совместной сегментации, основанный на связанных динамических марковских сетях , был недавно предложен [1], который требует значительных улучшений устойчивости к нерелевантным / зашумленным видеокадрам.
В отличие от предыдущих попыток, которые удобно предполагали постоянное присутствие целевых объектов во всем входном видео, этот связанный алгоритм на основе двойной динамической сети Маркова одновременно выполняет задачи обнаружения и сегментации с двумя соответствующими сетями Маркова, совместно обновляемыми посредством распространения убеждений.
В частности, марковская сеть, отвечающая за сегментацию, инициализируется суперпикселями и предоставляет информацию для своего марковского аналога, отвечающего за задачу обнаружения объектов. И наоборот, сеть Маркова, отвечающая за обнаружение, строит граф предложения объекта с входными данными, включая трубки пространственно-временной сегментации.
Методы, основанные на вырезании графиков [ править ]
Оптимизация вырезания графа - популярный инструмент в компьютерном зрении, особенно в более ранних приложениях сегментации изображений . В качестве расширения регулярных разрезов графов предлагается многоуровневое разрезание гиперграфов [6] для учета более сложных соответствий высокого порядка между видеогруппами, выходящих за рамки типичных парных корреляций.
С таким расширением гиперграфа множество модальностей соответствий, включая внешний вид на низком уровне, заметность, когерентное движение и высокоуровневые функции, такие как области объекта, могут быть легко включены в вычисление гиперребра. Кроме того, в качестве основного преимущества перед смежностью подхода , основанной, Гиперграф неявно сохраняет более сложные соответствия между его вершинами, с гиперребро весами удобно вычисленных собственным значениями разложением из лапласовских матриц .
Методы на основе CNN / LSTM [ править ]
В приложениях для локализации действия совместная сегментация объектов также реализована в виде пространственно-временного детектора сегмент-трубка . [7] Вдохновленный недавними попытками локализации пространственно-временного действия с помощью тублеток (последовательностей ограничивающих прямоугольников), Le et al.представить новый детектор локализации пространственно-временного действия Segment-tube, который состоит из последовательностей покадровых масок сегментации. Этот детектор сегментной трубки может временно определять начальный / конечный кадр каждой категории действий при наличии предшествующих / последующих действий помех в необрезанном видео. Одновременно с этим детектор сегментной трубки создает покадровые маски сегментации вместо ограничивающих рамок, обеспечивая превосходную пространственную точность для трубок. Это достигается чередованием итеративной оптимизации между временной локализацией действия и пространственной сегментацией действия.
Предлагаемый сегментно-трубчатый детектор показан на схеме справа. Образец входных данных представляет собой необрезанное видео, содержащее все кадры в видео парного фигурного катания, причем только часть этих кадров принадлежит соответствующей категории (например, DeathSpirals). Инициализированный сегментацией изображения на основе значимости на отдельных кадрах, этот метод сначала выполняет этап временной локализации действия с каскадными 3D CNN и LSTM и точно определяет начальный и конечный кадры целевого действия с помощью стратегии от грубого к точному. Впоследствии детектор сегментной трубки уточняет покадровую пространственную сегментацию с вырезанием графа.фокусируясь на соответствующих кадрах, идентифицированных на этапе локализации временного действия. Оптимизация чередуется между локализацией временного действия и сегментацией пространственного действия итеративным образом. После практической конвергенции конечные результаты пространственно-временной локализации действия получаются в формате последовательности масок сегментации по кадрам (нижняя строка в блок-схеме) с точными начальными / конечными кадрами.
См. Также [ править ]
- Сегментация изображения
- Обнаружение объекта
- Анализ видеоконтента
- Анализ изображений
- Цифровая обработка изображений
- Распознавание активности
- Компьютерное зрение
- Сверточная нейронная сеть
- Долговременная кратковременная память
Ссылки [ править ]
- ^ а б в г Лю, Цзыи; Ван, Ле; Хуа, банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Инь; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических марковских сетей» (PDF) . IEEE Transactions по обработке изображений . 27 (12): 5840–5853. Bibcode : 2018ITIP ... 27.5840L . DOI : 10.1109 / tip.2018.2859622 . ISSN 1057-7149 . PMID 30059300 . S2CID 51867241 .
- ^ Висенте, Сара; Ротер, Карстен; Колмогоров, Владимир (2011). Сосегментация объектов . IEEE. DOI : 10.1109 / cvpr.2011.5995530 . ISBN 978-1-4577-0394-2.
- ^ Чен, Дин-Цзе; Чен, Хванн-Цзонг; Чанг, Лун-Вэнь (2012). Сегментация видеообъектов . Нью-Йорк, Нью-Йорк, США: ACM Press. DOI : 10.1145 / 2393347.2396317 . ISBN 978-1-4503-1089-5.
- ↑ Ли, Ён Джэ; Ким, Джечоль; Грауман, Кристен (2011). Ключевые сегменты для сегментации видеообъектов . IEEE. DOI : 10.1109 / iccv.2011.6126471 . ISBN 978-1-4577-1102-2.
- ^ Ма, Тяньян; Латецки, Лонгин Ян. Клики максимального веса с ограничениями мьютекса для сегментации видеообъектов . IEEE CVPR 2012 . DOI : 10.1109 / CVPR.2012.6247735 .
- ^ Ван, Ле; Lv, Xin; Чжан, Цилинь; Ню, Чжэньсин; Чжэн, Наньнин; Хуа, банда (2020). «Сосегментация объектов в зашумленных видео с многоуровневым гиперграфом» (PDF) . Транзакции IEEE в мультимедиа . IEEE: 1. DOI : 10,1109 / tmm.2020.2995266 . ISSN 1520-9210 .
- ^ a b c Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (22.05.2018). «Сегмент-трубка: пространственно-временная локализация действия в видео без обрезки с покадровой сегментацией» (PDF) . Датчики . MDPI AG. 18 (5): 1657. DOI : 10,3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 . Материал был скопирован из этого источника, доступного по международной лицензии Creative Commons Attribution 4.0 .