Функция отслеживания Канаде – Лукаса – Томаси

В компьютерном зрении , то Kanade-Лукас-Томази (КЛТ) функция отслеживания является подход к извлечения признаков . Предлагается в основном с целью решения этой проблемы , что традиционные регистрационные изображения методы , как правило , дорого. KLT использует информацию о пространственной интенсивности для поиска позиции, которая дает наилучшее совпадение. Это быстрее, чем традиционные методы для изучения гораздо меньшего количества потенциальных совпадений между изображениями.

Проблема регистрации

Традиционную задачу регистрации изображений можно охарактеризовать следующим образом: Даны две функции ${\ Displaystyle F (х)}$ а также ${\ Displaystyle G (х)}$ , представляющие значения пикселей в каждом месте ${\ displaystyle x}$ на двух изображениях соответственно, где ${\ displaystyle x}$ вектор. Мы хотим найти вектор несоответствия ${\ displaystyle h}$ что минимизирует некоторую разницу между ${\ Displaystyle F (х + ч)}$ а также ${\ Displaystyle G (х)}$ , для ${\ displaystyle x}$ в каком-то интересном регионе ${\ displaystyle R}$ .

Некоторые меры разницы между ${\ Displaystyle F (х + ч)}$ а также ${\ Displaystyle G (х)}$ :

L ₁ норма = ${\ displaystyle \ sum _ {x \ in R} \ left \ vert F (x + h) -G (x) \ right \ vert}$
L ₂ норма = ${\ displaystyle {\ sqrt {\ sum _ {x \ in R} \ left [F (x + h) -G (x) \ right] ^ {2}}}}$
Отрицательная нормализованная корреляция
= ${\ displaystyle {\ dfrac {- \ sum _ {x \ in R} F (x + h) G (x)} {{\ sqrt {\ sum _ {x \ in R} F (x + h) ^ { 2}}} {\ sqrt {\ sum _ {x \ in R} G (x) ^ {2}}}}}}$

Базовое описание алгоритма регистрации

Функциональный трекер KLT основан на двух статьях:

В первой статье Лукас и Канаде ^[1] развили идею локального поиска с использованием градиентов, взвешенных путем приближения ко второй производной изображения.

Одномерный случай

Если ${\ displaystyle h}$ это смещение между двумя изображениями ${\ Displaystyle F (х)}$ а также ${\ Displaystyle G (х) = F (х + ч)}$ тогда делается приближение, что

{\ Displaystyle F '(x) \ приблизительно {\ dfrac {F (x + h) -F (x)} {h}} = {\ dfrac {G (x) -F (x)} {h}} \ ,}

чтобы

{\ Displaystyle ч \ приблизительно {\ dfrac {G (x) -F (x)} {F '(x)}} \,}

Это приближение к градиенту изображения является точным только в том случае, если смещение локальной области между двумя регистрируемыми изображениями не слишком велико. Приближение к ${\ displaystyle h}$ зависит от ${\ displaystyle x}$ . Для объединения различных оценок ${\ displaystyle h}$ при различных значениях ${\ displaystyle x}$ , их естественно усреднить:

{\ displaystyle h \ приблизительно {\ dfrac {\ sum _ {x} {\ dfrac {G (x) -F (x)} {F '(x)}}} {\ sum _ {x} 1}}. }

Среднее значение может быть дополнительно улучшено путем взвешивания вклада каждого члена в него, который обратно пропорционален оценке ${\ Displaystyle \ влево \ верт F '' (х) \ вправо \ верт}$ , где

{\ displaystyle F '' (x) \ приблизительно {\ dfrac {G '(x) -F' (x)} {h}}.}

Для облегчения выражения определена весовая функция :

{\ displaystyle w (x) = {\ dfrac {1} {\ left \ vert G '(x) -F' (x) \ right \ vert}}.}

Таким образом, среднее значение с взвешиванием составляет:

{\ displaystyle h = {\ dfrac {\ sum _ {x} {\ dfrac {w (x) \ left [G (x) -F (x) \ right]} {F '(x)}}} {\ сумма _ {x} w (x)}}.}

После получения сметы ${\ Displaystyle F (х)}$ может быть перемещен оценкой ${\ displaystyle h}$ . Процедура применяется многократно, что дает тип итерации Ньютона – Рафсона . Последовательность оценок будет идеально сходиться к лучшему. ${\ displaystyle h}$ . Итерацию можно выразить как
${\ displaystyle {\ begin {cases} h_ {0} = 0 \\ h_ {k + 1} = h_ {k} + {\ dfrac {\ sum _ {x} {\ dfrac {w (x) \ left [ G (x) -F (x + h_ {k}) \ right]} {F '(x + h_ {k})}}} {\ sum _ {x} w (x)}} \ end {case} }}$

Альтернативный вывод

Приведенный выше вывод не может быть хорошо обобщен на два измерения, поскольку двумерное линейное приближение происходит по-другому. Это можно исправить, применив линейное приближение в виде:

{\ Displaystyle F (х + ч) \ приблизительно F (х) + hF '(х),}

найти ${\ displaystyle h}$ который минимизирует меру L ₂ нормы разницы (или ошибки) между кривыми, где ошибка может быть выражена как:

{\ displaystyle E = \ sum _ {x} \ left [F (x + h) -G (x) \ right] ^ {2}.}

Чтобы минимизировать ошибку относительно ${\ displaystyle h}$ , частично дифференцировать ${\ displaystyle E}$ и установите его на ноль:

{\ displaystyle {\ begin {align} 0 & = {\ dfrac {\ partial E} {\ partial h}} \\ & \ приблизительно {\ dfrac {\ partial} {\ partial h}} \ sum _ {x} \ left [F (x) + hF '(x) -G (x) \ right] ^ {2} \\ & = \ sum _ {x} 2F' (x) \ left [F (x) + hF '( x) -G (x) \ right] \ end {выровнено}}}

,

{\ displaystyle \ Rightarrow h \ приблизительно {\ dfrac {\ sum _ {x} F '(x) [G (x) -F (x)]} {\ sum _ {x} F' (x) ^ {2 }}} \,}

Это в основном то же самое, что и в одномерном случае, за исключением того факта, что весовая функция ${\ displaystyle w (x) = F '(x) ^ {2}.}$ А форму итерации с взвешиванием можно выразить как:

${\ displaystyle {\ begin {cases} h_ {0} = 0 \\ h_ {k + 1} = h_ {k} + {\ dfrac {\ sum _ {x} w (x) F '(x + h_ { k}) \ left [G (x) -F (x + h_ {k}) \ right]} {\ sum _ {x} w (x) F '(x + h_ {k}) ^ {2}} } \ end {case}}}$

Представление

Чтобы оценить производительность алгоритма, нам, естественно, интересно узнать, при каких условиях и с какой скоростью последовательность ${\ displaystyle h_ {k}}$ сходится к реальному ${\ displaystyle h}$ .
Рассмотрим случай:

{\ Displaystyle F (х) = \ грех х,}

{\ Displaystyle G (x) = F (x + h) = \ sin (x + h).}

Обе версии алгоритма регистрации сойдутся к правильному ${\ displaystyle h}$ для ${\ Displaystyle \ влево \ верт ч \ вправо \ верт <\ пи}$ , т. е. для начальных рассогласований величиной до половины длины волны. Диапазон сходимости может быть улучшен путем подавления высоких пространственных частот в изображении, что может быть достигнуто путем сглаживания изображения, что также нежелательно подавляет его мелкие детали. Если окно сглаживания намного больше, чем размер сопоставляемого объекта, объект может быть полностью подавлен, так что сопоставление станет невозможным.

Поскольку изображения с фильтром нижних частот могут быть отобраны с более низким разрешением без потери информации, принята стратегия от грубого к точному. Для получения приблизительного соответствия можно использовать сглаженную версию изображения с низким разрешением. Применение алгоритма к изображениям с более высоким разрешением позволит уточнить соответствие, полученное при более низком разрешении.

Поскольку сглаживание расширяет диапазон сходимости, весовая функция повышает точность приближения, ускоряя сходимость. Без взвешивания расчетное смещение ${\ displaystyle h_ {1}}$ первой итерации с ${\ Displaystyle F (х) = \ грех х}$ спадает до нуля, когда смещение приближается к половине длины волны.

Выполнение

Реализация требует расчета взвешенных сумм величин ${\ displaystyle F'G,}$ ${\ displaystyle F'F,}$ а также ${\ displaystyle (F ') ^ {2}}$ по интересующему региону ${\ displaystyle R.}$ Хотя ${\ Displaystyle F '(х)}$ не может быть рассчитан точно, его можно оценить по:

{\ Displaystyle F '(x) \ приблизительно {\ dfrac {F (x + \ Delta x) -F (x)} {\ Delta x}},}

где ${\ displaystyle \ Delta x}$ выбирается соответственно малым.
Некоторые сложные методы могут использоваться для оценки первых производных, но в целом такие методы эквивалентны сначала сглаживанию функции, а затем взятию разницы.

Обобщение на несколько измерений

Алгоритм регистрации для 1-D и 2-D может быть обобщен на большее количество измерений. Для этого мы пытаемся минимизировать норму ошибки L ₂ :

{\ displaystyle E = \ sum _ {\ mathbf {x} \ in R} \ left [F (\ mathbf {x} + \ mathbf {h}) -G (\ mathbf {x}) \ right] ^ {2 },}

где ${\ displaystyle \ mathbf {x}}$ а также ${\ displaystyle \ mathbf {h}}$ являются n-мерными векторами-строками.
Аналогичное линейное приближение:

{\ Displaystyle F (\ mathbf {x} + \ mathbf {h}) \ приблизительно F (\ mathbf {x}) + \ mathbf {h} \ left ({\ dfrac {\ partial} {\ partial \ mathbf {x }}} F (\ mathbf {x}) \ right) ^ {T}.}

И частично дифференцировать ${\ displaystyle E}$ относительно ${\ displaystyle \ mathbf {h}}$ :

{\ displaystyle {\ begin {align} 0 & = {\ dfrac {\ partial E} {\ partial \ mathbf {h}}} \\ & \ приблизительно {\ dfrac {\ partial} {\ partial \ mathbf {h}} } \ sum _ {\ mathbf {x}} \ left [F (\ mathbf {x}) + \ mathbf {h} \ left ({\ dfrac {\ partial F} {\ partial \ mathbf {x}}} \ справа) ^ {T} -G (\ mathbf {x}) \ right] ^ {2} \\ & = \ sum _ {\ mathbf {x}} 2 \ left [F (\ mathbf {x}) + \ mathbf {h} \ left ({\ dfrac {\ partial F} {\ partial \ mathbf {x}}} \ right) ^ {T} -G (\ mathbf {x}) \ right] \ left ({\ dfrac {\ partial F} {\ partial \ mathbf {x}}} \ right) \ end {align}}}

,

{\ Displaystyle \ Rightarrow \ mathbf {h} \ приблизительно \ left [\ sum _ {\ mathbf {x}} \ left [G (\ mathbf {x}) -F (\ mathbf {x}) \ right] \ left ({\ dfrac {\ partial F} {\ partial \ mathbf {x}}} \ right) \ right] \ left [\ sum _ {\ mathbf {x}} \ left ({\ dfrac {\ partial F} { \ partial \ mathbf {x}}} \ right) ^ {T} \ left ({\ dfrac {\ partial F} {\ partial \ mathbf {x}}} \ right) \ right] ^ {- 1},}

который имеет почти ту же форму, что и 1-D версия.

Дальнейшие обобщения

Этот метод также можно расширить, чтобы учесть регистрацию на основе более сложных преобразований, таких как вращение, масштабирование и сдвиг, с учетом

{\ Displaystyle G (x) = F (Ax + h),}

где ${\ displaystyle A}$ является линейным пространственным преобразованием. В этом случае ошибка, которую необходимо минимизировать, будет

{\ displaystyle E = \ sum _ {x} \ left [F (Ax + h) -G (x) \ right] ^ {2}.}

Чтобы определить сумму ${\ displaystyle \ Delta A}$ отрегулировать ${\ displaystyle A}$ а также ${\ displaystyle \ Delta h}$ отрегулировать ${\ displaystyle h}$ , опять же, воспользуемся линейным приближением:

{\ Displaystyle F (Икс (А + \ Дельта А) + (ч + \ Дельта ч))}

{\ Displaystyle \ приблизительно F (Ax + h) + (\ Delta Ax + \ Delta h) {\ dfrac {\ partial} {\ partial x}} F (x).}

Приближение можно использовать аналогично, чтобы найти выражение ошибки, которое становится квадратичным в величинах, которые необходимо минимизировать по отношению к. Выяснив выражение ошибки, дифференцируйте его по величине, которую необходимо минимизировать, и установите нулевые результаты, получив набор линейных уравнений, затем решите их.

Дальнейшее обобщение предназначено для учета того факта, что яркость может отличаться в двух видах из-за разницы точек обзора камер или из-за различий в обработке двух изображений. Предположим разницу как линейное преобразование:

{\ Displaystyle F (х) = \ альфа G (х) + \ бета,}

где ${\ displaystyle \ alpha}$ представляет собой настройку контрастности и ${\ displaystyle \ beta}$ представляет собой регулировку яркости.
Объединяя это выражение с общей задачей регистрации линейного преобразования:

{\ displaystyle E = \ sum _ {x} \ left [F (Ax + h) - (\ alpha G (x) + \ beta) \ right] ^ {2}}

как количество, которое нужно минимизировать по отношению к ${\ displaystyle \ alpha,}$ ${\ displaystyle \ beta,}$ ${\ displaystyle A,}$ а также ${\ displaystyle h.}$

Обнаружение и отслеживание точечных объектов

Во второй статье Томаси и Канаде ^[2] использовали тот же самый базовый метод для поиска регистрации из-за перевода, но улучшили метод, добавив функции отслеживания, которые подходят для алгоритма отслеживания. Предлагаемые функции будут выбраны, если оба собственных значения градиентной матрицы превышают некоторый порог.

По очень похожему выводу проблема формулируется как

{\ Displaystyle \ набла д = е \,}

где ${\ displaystyle \ nabla}$ это градиент. Это то же самое, что и последняя формула Лукаса – Канаде, приведенная выше. Локальный патч считается хорошей функцией для отслеживания, если оба из двух собственных значений ( ${\ displaystyle \ lambda _ {1}}$ а также ${\ displaystyle \ lambda _ {2}}$ ) из ${\ displaystyle \ nabla}$ больше порога.

Метод отслеживания, основанный на этих двух документах, обычно считается трекером KLT.

Улучшения и вариации

В третьей статье Ши и Томази ^[3] предложили дополнительный этап проверки правильности отслеживания объектов.

Аффинное преобразование соответствует между изображением отслеживаемого в данный момент объекта и его изображением из непоследовательного предыдущего кадра. Если аффинно-скомпенсированное изображение слишком непохоже, функция отбрасывается.

Причина в том, что между последовательными кадрами трансляция является достаточной моделью для отслеживания, но из-за более сложного движения, эффектов перспективы и т. Д. Требуется более сложная модель, когда кадры находятся дальше друг от друга.

Используя аналогичный вывод, что и для KLT, Ши и Томаси показали, что поиск может быть выполнен по формуле

{\ Displaystyle Tz = а \,}

где ${\ displaystyle T}$ - матрица градиентов, ${\ displaystyle z}$ - вектор аффинных коэффициентов и ${\ displaystyle a}$ - вектор ошибок. Сравните это с ${\ Displaystyle \ набла д = е}$ .

Смотрите также

Особенности Канаде – Томаси в контексте обнаружения признаков
Метод Лукаса – Канаде. Алгоритм оптического потока, полученный из справочного материала 1.

[LK-1] Брюс Д. Лукас и Такео Канаде. Метод итерационной регистрации изображений в приложении к стереозрению . Международная совместная конференция по искусственному интеллекту , страницы 674–679, 1981.

[TK-2] Карло Томази и Такео Канаде. Обнаружение и отслеживание точечных объектов. Технический отчет Университета Карнеги-Меллона CMU-CS-91-132 , апрель 1991 г.

[ST-3] Цзяньбо Ши и Карло Томази. Хорошие возможности для отслеживания. Конференция IEEE по компьютерному зрению и распознаванию образов , страницы 593–600, 1994.

[1]