Обнаружение перехода выстрела

Обнаружение перехода кадра (или просто обнаружение кадра ), также называемое обнаружением фрагмента, является областью исследования обработки видео . Его предметом является автоматическое обнаружение переходов между кадрами в цифровом видео с целью временной сегментации видео. ^[1]

Используйте [ редактировать ]

Обнаружение перехода между кадрами используется для разделения пленки на основные временные единицы, называемые кадрами ; выстрел представляет собой ряд взаимосвязанных последовательных снимков , сделанных смежно с помощью одной камеры и представляющих собой непрерывное действие во времени и пространстве. ^[2]

Эта операция очень полезна в программном обеспечении для пост-обработки видео. Это также фундаментальный этап автоматизированного индексирования и приложений для поиска или реферирования видео на основе контента, которые обеспечивают эффективный доступ к огромным видеоархивам, например, приложение может выбирать репрезентативное изображение из каждой сцены для создания визуального обзора всего фильма и, обрабатывая такие индексы, поисковая машина может обрабатывать такие элементы поиска, как «покажите мне все фильмы, где есть сцена со львом».

Обнаружение вырезов не может сделать то же самое, что не мог бы сделать редактор-человек вручную, однако это выгодно, поскольку экономит время. Кроме того, из-за увеличения использования цифрового видео и, как следствие, важности вышеупомянутых приложений индексации, автоматическое обнаружение обрезки очень важно в настоящее время.

Основные технические термины [ править ]

Скачкообразный переход .

В растворяющиеся смеси одного выстрела постепенно в другую с эффектом прозрачности.

Проще говоря, обнаружение нарезки - это поиск позиций в видео, в которых одна сцена заменяется другой с другим визуальным содержанием. С технической точки зрения используются следующие термины:

Цифровое видео состоит из кадров , которые быстро сменяются на глаз зрителя, чтобы создать впечатление движения. «Цифровой» в этом контексте означает, что как отдельный кадр состоит из пикселей, так и данные представлены в виде двоичных данных , так что их можно обрабатывать с помощью компьютера. Каждый кадр в цифровом видео можно однозначно идентифицировать по его индексу кадра , серийному номеру.

Выстрел представляет собой последовательность кадров , снятых безостановочно с помощью одной камеры. Есть несколько переходов пленки, обычно используемых при монтаже фильма, чтобы сопоставить смежные кадры; В контексте обнаружения перехода выстрелов они обычно делятся на два типа: ^[3]

Резкие переходы - это внезапный переход от одного кадра к другому, т.е. один кадр принадлежит первому кадру, следующий кадр принадлежит второму кадру. Они также известны как жесткие порезы или просто порезы.
Постепенные переходы - в этом виде переходов два кадра комбинируются с использованием хроматических, пространственных или пространственно-хроматических эффектов, которые постепенно заменяют один кадр другим. Они также часто называются мягкими переходами и могут быть разных типов, например, стираются , растворяются , исчезают ...

«Обнаружение разреза» означает, что положение разреза получено; точнее, резкая резка получается как «резкая резка между кадром i и кадром i + 1», мягкая резка - как «мягкая резка от кадра i к кадру j».

Правильно обнаруженный переход называется попаданием , разрез, который есть, но не обнаружен, называется пропущенным попаданием, а положение, в котором программа предполагает разрез, но где на самом деле разреза нет, называется ложным попаданием .

Введение в монтаж фильмов и исчерпывающий список методов перехода между кадрами можно найти в разделе монтаж фильмов .

Масштаб проблемы [ править ]

Хотя обнаружение порезов кажется простой задачей для человека, для компьютеров это нетривиальная задача. Обнаружение обрезки было бы тривиальной проблемой, если бы каждый кадр видео был обогащен дополнительной информацией о том, когда и какой камерой он был снят. Возможно, ни один алгоритм обнаружения разрезов никогда не сможет с уверенностью обнаружить все разрезы, если он не будет снабжен мощным искусственным интеллектом. ^{[ необходима цитата ]}

В то время как большинство алгоритмов достигают хороших результатов с жесткой резкой, многие не могут распознать мягкую резку. Жесткие сокращения обычно сопровождаются внезапными и обширными изменениями визуального контента, в то время как мягкие сокращения характеризуются медленными и постепенными изменениями. Человек может компенсировать это отсутствие визуального разнообразия пониманием значения сцены. В то время как компьютер предполагает, что черная линия, стирающая кадр, является «просто еще одним обычным объектом, медленно движущимся по текущей сцене», человек понимает, что сцена заканчивается и заменяется черным экраном.

Методы [ править ]

Каждый метод обнаружения порезов работает по двухфазному принципу:

Оценка - Каждой паре последовательных кадров цифрового видео присваивается определенная оценка, которая отражает сходство / несходство между ними.
Решение - все ранее подсчитанные баллы оцениваются, и если балл считается высоким, обнаруживается отсечение.

Этот принцип подвержен ошибкам. Во-первых, поскольку даже незначительное превышение порогового значения приводит к попаданию, необходимо гарантировать, что на первом этапе значения разбросаны в широких пределах, чтобы максимизировать среднюю разницу между оценкой за «отсечку» и «без отсечки». Во-вторых, нужно тщательно выбирать порог; обычно полезные значения можно получить с помощью статистических методов.

Обнаружение порезов. (1) Попадание : обнаруженный резкий разрез. (2) Пропущенное попадание : мягкий разрез ( растворение ), который не был обнаружен. (3) Ложное попадание : один единственный мягкий разрез, который ошибочно интерпретируется как два разных жесткого разреза.

Подсчет очков [ править ]

Есть много возможных оценок, используемых для определения различий в визуальном содержании; некоторые из наиболее распространенных:

Сумма абсолютных разностей (САД). Это и самый очевидный, и самый простой алгоритм из всех: два последовательных кадра сравниваются пиксель за пикселем, суммируя абсолютные значения разностей каждых двух соответствующих пикселей. Результатом является положительное число, которое используется в качестве оценки. SAD очень чутко реагирует даже на незначительные изменения в сцене: быстрые движения камеры, взрывы или простое включение света в ранее темной сцене приводят к ложным срабатываниям. С другой стороны, SAD вообще почти не реагирует на мягкие разрезы. Тем не менее, SAD часто используется для создания базового набора «возможных попаданий», поскольку он обнаруживает все видимые жесткие порезы с максимальной вероятностью.
Различия гистограмм (HD). Различия гистограммы очень похожи на Сумму абсолютных различий. Разница в том, что HD вычисляет разницу между гистограммами двух последовательных кадров; гистограмма - это таблица, содержащая для каждого цвета в кадре количество пикселей, закрашенных этим цветом. HD не так чувствителен к незначительным изменениям в сцене, как SAD, и поэтому дает меньше ложных срабатываний. Одна из основных проблем HD заключается в том, что два изображения могут иметь совершенно одинаковые гистограммы, в то время как показываемое содержимое сильно различается, например, изображение моря и пляжа может иметь ту же гистограмму, что и изображение кукурузного поля и неба. HD не дает никаких гарантий, что распознает жесткую резку.
Коэффициент смены кромки (ECR). ECR пытается сравнить фактическое содержимое двух кадров. Он преобразует оба кадра в изображения краев , т. Е. Извлекает вероятные очертания объектов на изображениях (см. Подробности в разделе « Определение краев» ). Затем он сравнивает эти краевые изображения, используя расширение, чтобы вычислить вероятность того, что второй кадр содержит те же объекты, что и первый кадр. ECR - один из самых эффективных алгоритмов подсчета очков. Он очень чутко реагирует на резкие порезы и по своей природе может обнаружить многие мягкие порезы. В своей базовой форме даже ECR не может обнаруживать мягкие порезы, такие как салфетки.поскольку он рассматривает исчезающие объекты как обычные объекты, движущиеся по сцене. Тем не менее, ECR можно расширить вручную для распознавания специальных форм мягких разрезов.

Наконец, сочетание двух или более из этих оценок может улучшить производительность.

Решение [ править ]

На этапе принятия решения обычно используются следующие подходы:

Фиксированный порог - в этом подходе оценки сравниваются с порогом, который был установлен ранее, и если оценка выше порогового значения, объявляется сокращение.
Адаптивный порог - в этом подходе оценки сравниваются с порогом, который учитывает различные оценки в видео, чтобы адаптировать порог к свойствам текущего видео. Как и в предыдущем случае, если оценка выше соответствующего порога, объявляется отсечение.
Машинное обучение. Методы машинного обучения также могут применяться в процессе принятия решений.

Стоимость [ править ]

Все вышеперечисленные алгоритмы выполняются за O (n), то есть выполняются за линейное время, где n - количество кадров во входном видео. Алгоритмы различаются постоянным коэффициентом, который в основном определяется разрешением изображения видео.

Меры качества [ править ]

Обычно для измерения качества алгоритма обнаружения порезов используются следующие три показателя:

Напомним, это вероятность того, что существующий разрез будет обнаружен:

{\ displaystyle V = {C \ over C + M}}

Точность - это вероятность того, что предполагаемый разрез на самом деле является разрезом:

{\ displaystyle P = {C \ over C + F}}

F1 - это комбинированная мера, которая дает высокое значение тогда и только тогда, когда и точность, и отзыв приводят к высоким значениям:

{\ Displaystyle F1 = {2 * P * V \ над P + V}}

Символы обозначены: C , количество правильно обнаруженные сокращений (» C дого правильные удары„), М , число не обнаруженные сокращений (“ м issed удары„) и F , число ложно обнаруженные сокращений (“ F ALSE просмотров "). Все эти меры являются математическими, т.е. они дают значения от 0 до 1. Основное правило: чем выше значение, тем лучше работает алгоритм.

Контрольные показатели [ править ]

Сравнение тестов
Контрольный показатель	Видео	Часы	Кадры	Переходы между выстрелами	Участников	Годы
TRECVid	12 - 42	4,8 - 7,5	545 068 - 744 604	2090–4806	57	2001 - 2007 гг.
МГУ СБД	31 год	21,45	1 900 000+	10883	7	2020 - 2021 гг.

TRECVid SBD Benchmark 2001-2007 ^[4] [ править ]

Автоматическое обнаружение перехода между выстрелами было одним из направлений деятельности в рамках ежегодного эталонного тестирования TRECVid с 2001 по 2007 год. Было задействовано 57 алгоритмов от разных исследовательских групп. Расчет F-балла проводился для каждого алгоритма на наборе данных, который пополнялся ежегодно.

Лучшие исследовательские группы
Группа	Оценка F	Скорость обработки (по сравнению с реальным временем)	Открытый источник	Используемые метрики и технологии
Цинхуа У. ^[5]	0,897	× 0,23	Нет	Среднее значение яркости пикселей Стандартное отклонение яркости пикселей Цветовая гистограмма Разница по пикселям Вектор движения
NICTA ^[6]	0,892	× 2,30	Нет	Машинное обучение
IBM Research ^[7]	0,876	× 0,30	Нет	Цветовая гистограмма Гистограмма направления локализованных краев Уровень серого Сравнение эскизов Яркость кадра

Тест MSU SBD на 2020–2021 гг. ^[8] [ править ]

Тест сравнил 6 методов на более чем 120 видео из наборов данных RAI и MSU CC с различными типами изменений сцены, некоторые из которых были добавлены вручную. ^[9] Авторы заявляют, что главной особенностью этого теста является сложность смены кадров в наборе данных. Чтобы доказать это, они вычисляют метрику SI / TI снимков и сравнивают ее с другими общедоступными наборами данных.

Лучшие алгоритмы
Алгоритм	Оценка F	Скорость обработки (FPS)	Открытый источник	Используемые метрики и технологии
Саид Дадхан ^[10]	0,797	86	да	Цветовая гистограмма Адаптивный порог
Макс Реймэйн ^[11]	0,787	76	да	SVM для разрезов Нейронные сети для постепенных переходов Цветовая гистограмма
VQMT ^[12]	0,777	308	Нет	Гистограммы краев Компенсация движения Цветные гистограммы
PyScene ^[13]	0,776	321	да	Интенсивность кадра
FFmpeg ^[14]	0,772	165	да	Цветовая гистограмма

Ссылки [ править ]

^ П. Баласубраманиам; Р Утаякумар (2 марта 2012 г.). Математическое моделирование и научных вычислений: Международная конференция, ICMMSC 2012, Gandhigram, Тамил Наду, Индия, 16-18 марта, 2012 . Springer. С. 421–. ISBN 978-3-642-28926-2.
^ Вэйминь Шэнь; Цзяньмин Юн; Юнь Ян (18 декабря 2008 г.). Совместная работа с компьютерной поддержкой в дизайне IV: 11-я Международная конференция, CSCWD 2007, Мельбурн, Австралия, 26-28 апреля 2007 г. Пересмотренные избранные статьи . Springer Science & Business Media. С. 100–. ISBN 978-3-540-92718-1.
↑ Джоан Кабестани; Игнасио Рохас; Гонсало Джойя (30 мая 2011 г.). Достижения в области вычислительного интеллекта: 11-я международная рабочая конференция по искусственным нейронным сетям, IWANN 2011, Торремолинос-Малага, Испания, 8-10 июня 2011 г., Материалы . Springer Science & Business Media. С. 521–. ISBN 978-3-642-21500-1. Обнаружение выстрелов выполняется с помощью алгоритмов обнаружения перехода выстрелов. Для разделения видео на кадры используются два разных типа переходов: - Резкие переходы, также называемые переходами или прямыми переходами, происходят, когда внезапное изменение одного ...
^ Смитон, AF, Over, P., & Doherty, AR (2010). Обнаружение границ кадра видео: Семь лет деятельности TRECVid. Компьютерное зрение и понимание изображений, 114 (4), 411–418. DOI: 10.1016 / j.cviu.2009.03.011
^ Юань, Дж., Чжэн, В., Чен, Л., Дин, Д., Ван, Д., Тонг, З., Ван, Х., Ву, Дж., Ли, Дж., Линь, Ф. , И Чжан Б. (2004). Университет Цинхуа на TRECVID 2004: Обнаружение границ выстрела и извлечение высокоуровневых признаков. TRECVID.
^ Ю, Чжэнхуа, С. Вишванатан и Алекс Смола. «NICTA на TRECVID 2005 Задача обнаружения границ выстрела». TRECVID (2005).
^ A. Amir, The IBM Выстрел Boundary система обнаружения на TRECVID 2003 в: TRECVID 2005 Workshop ноутбуков материалов, Национальный институт стандартов и технологии, MD, USA, 2003.
^ http://videoprocessing.ml/benchmarks/sbd.html
^ https://videoprocessing.ml/benchmarks/sbd.html#methodology
^ https://github.com/SaeidDadkhah/Shot-Boundary-Detection
^ https://github.com/MaxReimann/Shot-Boundary-Detection
^ https://www.compression.ru/video/quality_measure/metric_plugins/scd_en.htm
^ https://pyscenedetect.readthedocs.io/en/latest/
^ https://ffmpeg.org/ffprobe-all.html#Main-options

[BalasubramaniamUthayakumar2012-1] П. Баласубраманиам; Р Утаякумар (2 марта 2012 г.). Математическое моделирование и научных вычислений: Международная конференция, ICMMSC 2012, Gandhigram, Тамил Наду, Индия, 16-18 марта, 2012 . Springer. С. 421–. ISBN 978-3-642-28926-2.

[ShenYong2008-2] Вэйминь Шэнь; Цзяньмин Юн; Юнь Ян (18 декабря 2008 г.). Совместная работа с компьютерной поддержкой в дизайне IV: 11-я Международная конференция, CSCWD 2007, Мельбурн, Австралия, 26-28 апреля 2007 г. Пересмотренные избранные статьи . Springer Science & Business Media. С. 100–. ISBN 978-3-540-92718-1.

[CabestanyRojas2011-3] Джоан Кабестани; Игнасио Рохас; Гонсало Джойя (30 мая 2011 г.). Достижения в области вычислительного интеллекта: 11-я международная рабочая конференция по искусственным нейронным сетям, IWANN 2011, Торремолинос-Малага, Испания, 8-10 июня 2011 г., Материалы . Springer Science & Business Media. С. 521–. ISBN 978-3-642-21500-1. Обнаружение выстрелов выполняется с помощью алгоритмов обнаружения перехода выстрелов. Для разделения видео на кадры используются два разных типа переходов: - Резкие переходы, также называемые переходами или прямыми переходами, происходят, когда внезапное изменение одного ...

[4] Смитон, AF, Over, P., & Doherty, AR (2010). Обнаружение границ кадра видео: Семь лет деятельности TRECVid. Компьютерное зрение и понимание изображений, 114 (4), 411–418. DOI: 10.1016 / j.cviu.2009.03.011

[5] Юань, Дж., Чжэн, В., Чен, Л., Дин, Д., Ван, Д., Тонг, З., Ван, Х., Ву, Дж., Ли, Дж., Линь, Ф. , И Чжан Б. (2004). Университет Цинхуа на TRECVID 2004: Обнаружение границ выстрела и извлечение высокоуровневых признаков. TRECVID.

[6] Ю, Чжэнхуа, С. Вишванатан и Алекс Смола. «NICTA на TRECVID 2005 Задача обнаружения границ выстрела». TRECVID (2005).

[7] A. Amir, The IBM Выстрел Boundary система обнаружения на TRECVID 2003 в: TRECVID 2005 Workshop ноутбуков материалов, Национальный институт стандартов и технологии, MD, USA, 2003.

[8] ttp://videoprocessing.ml/benchmarks/sbd.html

[9] ttps://videoprocessing.ml/benchmarks/sbd.html#methodology

[10] ttps://github.com/SaeidDadkhah/Shot-Boundary-Detection

[11] ttps://github.com/MaxReimann/Shot-Boundary-Detection

[12] ttps://www.compression.ru/video/quality_measure/metric_plugins/scd_en.htm

[13] ttps://pyscenedetect.readthedocs.io/en/latest/

[14] ttps://ffmpeg.org/ffprobe-all.html#Main-options

[1]