Детектор аффинной области Харриса

Обнаружение функции
Обнаружение края
Canny Deriche Дифференциальный Собель Prewitt Робертс Кросс
Обнаружение углов
Оператор Харриса Ши и Томази Кривизна кривой уровня Меры силы гессенской особенности СЬЮЗЕН БЫСТРЫЙ
Обнаружение BLOB-объектов
Лапласиан Гаусса (LoG) Разница гауссианов (DoG) Определитель Гессе (DoH) Максимально устойчивые экстремальные области PCBR
Обнаружение гребня
Преобразование Хафа
Преобразование Хафа Обобщенное преобразование Хафа
Структурный тензор
Структурный тензор Обобщенный структурный тензор
Обнаружение аффинно-инвариантных признаков
Адаптация аффинной формы Харрис аффинный Гессенское аффинное
Описание функции
ПРОСЕЯТЬ СЕРФ GLOH БОРЬБА
Масштабировать пространство
Аксиомы масштабного пространства Детали реализации Пирамиды
v т е

В области компьютерного зрения и анализа изображений , то Харрис аффинное детектор область относится к категории обнаружения особенностей . Обнаружение функций - это этап предварительной обработки нескольких алгоритмов, которые полагаются на определение характерных точек или точек интереса, чтобы установить соответствия между изображениями, распознать текстуры, распределить объекты по категориям или построить панорамы.

Обзор [ править ]

Аффинный детектор Харриса может идентифицировать похожие области между изображениями, которые связаны посредством аффинных преобразований и имеют разное освещение. Эти аффинно-инвариантные детекторы должны быть способны идентифицировать похожие области на изображениях, снятых с разных точек обзора, которые связаны простым геометрическим преобразованием: масштабированием, вращением и сдвигом. Эти обнаруженные области были названы как инвариантными, так и ковариантными . С одной стороны, области обнаруживаются инвариантно по отношению к преобразованию изображения, но области ковариантно изменяются с преобразованием изображения. ^[1]Не зацикливайтесь на этих двух соглашениях об именах; Важно понимать, что дизайн этих точек интереса сделает их совместимыми с изображениями, снятыми с разных точек зрения. Другие детекторы, которые являются аффинно-инвариантными, включают детектор аффинной области Гессе , максимально устойчивые экстремальные области , детектор заметности Кадира – Брейди , краевые области (EBR) и области, основанные на экстремумах интенсивности (IBR).

Миколайчик и Шмид (2002) впервые описали аффинный детектор Харриса в том виде, в котором он используется сегодня в детекторе аффинно- инвариантных точек интереса . ^[2] Более ранние работы в этом направлении включают использование аффинной адаптации формы Линдеберга и Гардинга для вычисления аффинно-инвариантных дескрипторов изображения и, таким образом, уменьшения влияния деформаций перспективного изображения, ^[3] использование аффинно адаптированных точек характеристик для широкого сопоставления базовой линии с Баумберга ^[4] и первое использование масштабно-инвариантных характерных точек Линдебергом; ^[5]^[6]^[7] для обзора теоретических основ. Аффинный детектор Харриса полагается на комбинацию угловых точек, обнаруженных черезОбнаружение углов Харриса , многомасштабный анализ в пространстве шкалы Гаусса и аффинная нормализация с использованием итеративного алгоритма адаптации аффинной формы . Рекурсивный и итерационный алгоритм следует итеративному подходу к обнаружению этих областей:

Определите начальные точки региона с помощью масштабно-инвариантного детектора Харриса-Лапласа .
Для каждой начальной точки нормализуйте область, чтобы она была аффинно-инвариантной, используя адаптацию аффинной формы .
Итеративно оцените аффинную область: выберите правильный масштаб интеграции, масштаб дифференциации и пространственно локализуйте точки интереса.
Обновите аффинную область, используя эти масштабы и пространственные локализации.
Повторите шаг 3, если критерий остановки не соблюден.

Описание алгоритма [ править ]

Детектор Харриса – Лапласа (начальные точки региона) [ править ]

Аффинный детектор Харриса в значительной степени полагается как на меру Харриса, так и на представление пространства в масштабе Гаусса . Поэтому следует краткое рассмотрение обоих. Для более исчерпывающих выводов см. Определение углов и пространство гауссовского масштаба или связанные с ними статьи. ^[6]^[8]

Угловая мера Харриса [ править ]

Алгоритм детектора углов Харриса основан на центральном принципе: в углу интенсивность изображения будет сильно изменяться во многих направлениях. В качестве альтернативы это можно сформулировать, исследуя изменения интенсивности из-за сдвигов в локальном окне. Вокруг угловой точки интенсивность изображения сильно изменится, когда окно сдвинуто в произвольном направлении. Следуя этой интуиции и благодаря умному разложению, детектор Харриса использует вторую матрицу моментов в качестве основы для своих угловых решений. (См. Определение угла для более полного вывода). Матрица , также называемая матрицей автокорреляции, имеет значения, тесно связанные с производными интенсивности изображения . ${\ displaystyle A}$

{\ displaystyle A (\ mathbf {x}) = \ sum _ {p, q} w (p, q) {\ begin {bmatrix} I_ {x} ^ {2} (p, q) & I_ {x} I_ {y} (p, q) \\ I_ {x} I_ {y} (p, q) & I_ {y} ^ {2} (p, q) \\\ end {bmatrix}}}

где и являются соответствующие производные (интенсивности пикселей) в и направление в точке ( , ); и - позиционные параметры весовой функции w. Недиагональные элементы являются произведением и , а диагональные элементы - квадратами соответствующих производных . Весовая функция может быть равномерной, но чаще она является изотропной, круговой гауссовой, ${\ displaystyle I_ {x}}$ ${\ displaystyle I_ {y}}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle p}$ ${\ displaystyle q}$ ${\ displaystyle p}$ ${\ displaystyle q}$ ${\ displaystyle I_ {x}}$ ${\ displaystyle I_ {y}}$ ${\ Displaystyle ш (х, у)}$

w(x,y)=g(x,y,\sigma )={\frac {1}{2\pi \sigma ^{2}}}e^{\left(-{\frac {x^{2}+y^{2}}{2\sigma ^{2}}}\right)}

который действует как среднее в локальном регионе, при этом более тяжело взвешивая значения около центра.

Как оказалось, эта матрица описывает форму меры автокорреляции из-за сдвигов в расположении окна. Таким образом, если мы допустим и будем собственными значениями , то эти значения обеспечат количественное описание того, как мера автокорреляции изменяется в пространстве: ее основные кривизны. Как указывают Харрис и Стивенс (1988), матрица с центром в угловых точках будет иметь два больших положительных собственных значения. ^[8] Вместо извлечения этих собственных значений с помощью таких методов, как разложение по сингулярным числам, используется мера Харриса, основанная на следе и определителе: $A$ $\lambda _{1}$ $\lambda _{2}$ $A$ $A$

R=\det(A)-\alpha \operatorname {trace} ^{2}(A)=\lambda _{1}\lambda _{2}-\alpha (\lambda _{1}+\lambda _{2})^{2}

где - постоянная. Угловые точки имеют большие положительные собственные значения и, следовательно, будут иметь большую меру Харриса. Таким образом, угловые точки определяются как локальные максимумы меры Харриса, превышающие заданный порог. $\alpha$

{\begin{aligned}\{x_{c}\}={\big \{}x_{c}|R(x_{c})>R(x_{i}),\forall x_{i}\in W(x_{c}){\big \}},\\R(x_{c})>t_{threshold}\end{aligned}}

где - набор всех угловых точек, - это мера Харриса, вычисленная в , - это 8-соседний набор с центром и заданный порог. $\{x_{c}\}$ $R(x)$ $x$ $W(x_{c})$ $x_{c}$ $t_{threshold}$

8-точечное соседство

Гауссово масштабное пространство [ править ]

Пространственное представление изображения в масштабе Гаусса - это набор изображений, полученных в результате свертки ядра Гаусса различных размеров с исходным изображением. В целом представление можно сформулировать как:

L(\mathbf {x} ,s)=G(s)\otimes I(\mathbf {x} )

где - изотропное круговое гауссово ядро, как определено выше. Свертка с гауссовым ядром сглаживает изображение, используя окно размером с ядро. Более крупный масштаб, соответствует более гладкому результирующему изображению. Миколайчик и Шмид (2001) отмечают, что производные и другие измерения должны быть нормализованы по шкалам. ^[9] Производная порядка , должна быть нормализована коэффициентом следующим образом: $G(s)$ $s$ $m$ $D_{i_{1},...i_{m}}$ $s^{m}$

D_{i_{1},\dots ,i_{m}}(\mathbf {x} ,s)=s^{m}L_{i_{1},\dots ,i_{m}}(\mathbf {x} ,s)

Эти производные или любую произвольную меру можно адаптировать к представлению в пространстве шкалы , вычислив эту меру с использованием набора шкал рекурсивно там, где она находится . См. Масштабное пространство для более полного описания. $nth$ $s_{n}=k^{n}s_{0}$

Комбинирование детектора Харриса в гауссовском масштабном пространстве [ править ]

Харрис-Лаплас детектор сочетает в себе традиционный 2D Харрис детектор с идеей гауссовского масштабом пространства представления для создания масштабно-инвариантного детектора. Угловые точки Харриса являются хорошей отправной точкой, потому что, как было показано, они обладают хорошей инвариантностью к вращению и освещению в дополнение к идентификации интересных точек изображения. ^[10] Однако точки не являются масштабно-инвариантными, и поэтому матрица второго момента должна быть изменена, чтобы отразить свойство масштабной инвариантности. Обозначим, как масштабно адаптированную матрицу второго момента, используемую в детекторе Харриса-Лапласа. $M=\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}})$

M=\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}})=\sigma _{D}^{2}g(\sigma _{I})\otimes {\begin{bmatrix}L_{x}^{2}(\mathbf {x} ,\sigma _{D})&L_{x}L_{y}(\mathbf {x} ,\sigma _{D})\\L_{x}L_{y}(\mathbf {x} ,\sigma _{D})&L_{y}^{2}(\mathbf {x} ,\sigma _{D})\end{bmatrix}}

^[11]

где - гауссово ядро масштаба и . Подобно пространству в масштабе Гаусса, это сглаженное по Гауссу изображение. Оператор обозначает свертку. и - производные в соответствующем направлении, примененные к сглаженному изображению и вычисленные с использованием гауссова ядра с масштабом . С точки зрения нашей структуры масштабного пространства Гаусса, параметр определяет текущий масштаб, в котором обнаруживаются угловые точки Харриса. $g(\sigma _{I})$ $\sigma _{I}$ $\mathbf {x} =(x,y)$ $L(\mathbf {x} )$ $\mathbf {\otimes }$ $L_{x}(\mathbf {x} ,\sigma _{D})$ $L_{y}(\mathbf {x} ,\sigma _{D})$ $\sigma _{D}$ $\sigma _{I}$

Детектор Харриса-Лапласа, основанный на этой адаптированной к масштабу матрице второго момента, представляет собой двоякий процесс: применение углового детектора Харриса в нескольких масштабах и автоматический выбор характерного масштаба .

Многоуровневые угловые точки Харриса [ править ]

Алгоритм выполняет поиск по фиксированному количеству предопределенных шкал. Этот набор шкал определяется как:

{\sigma _{1}\dots \sigma _{n}}={k^{1}\sigma _{0}\dots k^{n}\sigma _{0}}

Миколайчик и Шмид (2004) используют . Для каждой степени интеграции, , выбранный из этого множества, соответствующий масштаб дифференциации выбирается так, чтобы быть постоянным фактором интеграции масштаба: . Миколайчик и Шмид (2004) использовали . ^[11] Используя эти шкалы, точки интереса обнаруживаются с помощью меры Харриса на матрице. Cornerness, как типичная мера Харриса, определяются как: $k=1.4$ $\sigma _{I}$ $\sigma _{D}=s\sigma _{I}$ $s=0.7$ $\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}})$

{\mathit {cornerness}}=\det(\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}}))-\alpha \operatorname {trace} ^{2}(\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}}))

Как и в традиционном детекторе Харриса, угловые точки - это те локальные (8-точечное соседство) максимумы угла , которые превышают заданный порог.

Идентификация шкалы характеристик [ править ]

Итерационный алгоритм, основанный на Lindeberg (1998), как пространственно локализует угловые точки, так и выбирает характерный масштаб . ^[6] Итерационный поиск состоит из трех ключевых шагов, которые выполняются для каждой точки, которая была первоначально обнаружена в масштабе многомасштабным детектором Харриса ( указывает итерацию): $\mathbf {x}$ $\sigma _{I}$ $k$ $kth$

Выберите масштаб, который максимизирует лапласиан гауссиана (LoG) в заранее определенном диапазоне соседних масштабов. $\sigma _{I}^{(k+1)}$ Соседние масштабы обычно выбираются из диапазона, который находится в пределах окрестности двух пространственных масштабов . То есть, если исходные точки были обнаружены с использованием коэффициента масштабирования между последовательными масштабами, соседство с двумя пространственными масштабами является диапазоном . Таким образом гауссова весы исследованные являются: . Измерение LoG определяется как: $1.4$ $t\in [0.7,\dots ,1.4]$ $\sigma _{I}^{(k+1)}=t\sigma _{I}^{k}$

|LoG(\mathbf {x} ,\sigma _{I})|=\sigma _{I}^{2}|L_{xx}(\mathbf {x} ,\sigma _{I})+L_{yy}(\mathbf {x} ,\sigma _{I})|

где и - вторые производные по соответствующим направлениям. ^[12] фактор (как обсуждалось выше в гауссовой шкале пространства) используется для нормализации LOG по шкалам и сделать эти меры сопоставимы, таким образом делая максимум актуальной. Миколайчик и Шмид (2001) демонстрируют, что показатель LoG достигает наивысшего процента правильно обнаруженных угловых точек по сравнению с другими показателями выбора шкалы. ^[9] Масштаб, который максимизирует эту меру LoG в окрестности двух масштабных пространств, считается характеристическим масштабом , и используется в последующих итерациях. Если не найдено ни экстремумов, ни максимумов LoG, эта точка исключается из будущих поисков.

L_{xx}

L_{yy}

\sigma _{I}^{2}

\sigma _{I}^{(k+1)}

По характерному масштабу точки локализованы в пространстве. То есть точка выбирается так, чтобы максимизировать угловую меру Харриса ( угловость, как определено выше) в пределах локальной окрестности 8 × 8. $\mathbf {x} ^{(k+1)}$
Критерий остановки : и . $\sigma _{I}^{(k+1)}==\sigma _{I}^{(k)}$ $\mathbf {x} ^{(k+1)}==\mathbf {x} ^{(k)}$

Если критерий остановки не соблюден, алгоритм повторяется с шага 1, используя новые точки и шкалу. Когда критерий остановки соблюден, найденные точки представляют собой те, которые максимизируют LoG по масштабам (выбор шкалы) и максимизируют угловую меру Харриса в локальной окрестности (пространственный выбор). $k+1$

Аффинно-инвариантные точки [ править ]

Математическая теория [ править ]

Точки, обнаруженные Харрисом-Лапласом, не зависят от масштаба и хорошо подходят для изотропных областей, которые просматриваются под одним и тем же углом обзора. Чтобы быть инвариантным к произвольным аффинным преобразованиям (и точкам зрения), математическая структура должна быть пересмотрена. Матрица второго момента определяется в более общем виде для анизотропных областей: $\mathbf {\mu }$

\mu (\mathbf {x} ,\Sigma _{I},\Sigma _{D})=\det(\Sigma _{D})g(\Sigma _{I})*(\nabla L(\mathbf {x} ,\Sigma _{D})\nabla L(\mathbf {x} ,\Sigma _{D})^{T})

где и - ковариационные матрицы, определяющие шкалы гауссовского ядра дифференцирования и интегрирования. Хотя это может сильно отличаться от матрицы второго момента в детекторе Харриса-Лапласа; это на самом деле идентично. Более ранняя матрица была 2D-изотропной версией, в которой ковариационные матрицы и представляли собой единичные матрицы 2x2, умноженные на коэффициенты и , соответственно. В новой формулировке гауссовские ядра можно рассматривать как многомерные гауссовские распределения. $\Sigma _{I}$ $\Sigma _{D}$ $\mu$ $\Sigma _{I}$ $\Sigma _{D}$ $\sigma _{I}$ $\sigma _{D}$ в отличие от однородного гауссова ядра. Равномерное гауссово ядро можно рассматривать как изотропную круговую область. Точно так же более общее ядро Гаусса определяет эллипсоид. Фактически, собственные векторы и собственные значения ковариационной матрицы определяют поворот и размер эллипсоида. Таким образом, мы можем легко увидеть, что это представление позволяет нам полностью определить произвольную эллиптическую аффинную область, по которой мы хотим интегрировать или дифференцировать.

Цель аффинно-инвариантного детектора - идентифицировать области на изображениях, которые связаны посредством аффинных преобразований. Таким образом, мы рассматриваем точку и преобразованную точку , где A - аффинное преобразование. В случае с изображениями оба и живут в космосе. Матрицы второго момента связаны следующим образом: ^[3] $\mathbf {x} _{L}$ $\mathbf {x} _{R}=A\mathbf {x} _{L}$ $\mathbf {x} _{R}$ $\mathbf {x} _{L}$ $R^{2}$

{\begin{aligned}\mu (\mathbf {x} _{L},\Sigma _{I,L},\Sigma _{D,L})&{}=A^{T}\mu (\mathbf {x} _{R},\Sigma _{I,R},\Sigma _{D,R})A\\M_{L}&{}=\mu (\mathbf {x} _{L},\Sigma _{I,L},\Sigma _{D,L})\\M_{R}&{}=\mu (\mathbf {x} _{R},\Sigma _{I,R},\Sigma _{D,R})\\M_{L}&{}=A^{T}M_{R}A\\\Sigma _{I,R}&{}=A\Sigma _{I,L}A^{T}{\text{ and }}\Sigma _{D,R}=A\Sigma _{D,L}A^{T}\end{aligned}}

где и - ковариационные матрицы для системы отсчета. Если мы продолжим эту формулировку и обеспечим ее соблюдение $\Sigma _{I,b}$ $\Sigma _{D,b}$ $b$

{\begin{aligned}\Sigma _{I,L}=\sigma _{I}M_{L}^{-1}\\\Sigma _{D,L}=\sigma _{D}M_{L}^{-1}\end{aligned}}

где и - скалярные множители, можно показать, что ковариационные матрицы для связанной точки связаны аналогичным образом: $\sigma _{I}$ $\sigma _{D}$

{\begin{aligned}\Sigma _{I,R}=\sigma _{I}M_{R}^{-1}\\\Sigma _{D,R}=\sigma _{D}M_{R}^{-1}\end{aligned}}

Требование, чтобы ковариационные матрицы удовлетворяли этим условиям, приводит к появлению нескольких хороших свойств. Одно из этих свойств состоит в том, что квадратный корень из матрицы второго момента преобразует исходную анизотропную область в изотропные области, которые связаны просто через матрицу чистого вращения . Эти новые изотропные области можно рассматривать как нормализованную систему отсчета. Следующие уравнения формулируют связь между нормализованными точками и : $M^{\tfrac {1}{2}}$ $R$ $x_{R}^{'}$ $x_{L}^{'}$

{\begin{aligned}A=M_{R}^{-{\tfrac {1}{2}}}RM_{L}^{\tfrac {1}{2}}\\x_{R}^{'}=M_{R}^{\tfrac {1}{2}}x_{R}\\x_{L}^{'}=M_{L}^{\tfrac {1}{2}}x_{L}\\x_{L}^{'}=Rx_{R}^{'}\\\end{aligned}}

Матрицу вращения можно восстановить с помощью методов градиента, подобных тем, которые используются в дескрипторе SIFT . Как обсуждалось с детектором Харриса, собственные значения и собственные векторы матрицы второго момента характеризуют кривизну и форму интенсивностей пикселей. То есть собственный вектор, связанный с наибольшим собственным значением, указывает направление наибольшего изменения, а собственный вектор, связанный с наименьшим собственным значением, определяет направление наименьшего изменения. В двумерном случае собственные векторы и собственные значения определяют эллипс. Для изотропной области она должна быть круглой, а не эллиптической. Это тот случай, когда собственные значения имеют одинаковую величину. Таким образом, мера изотропии вокруг локальной области определяется следующим образом: $M=\mu (\mathbf {x} ,\Sigma _{I},\Sigma _{D})$

{\mathcal {Q}}={\frac {\lambda _{\min }(M)}{\lambda _{\max }(M)}}

где обозначают собственные значения. У этой меры есть диапазон . Значение соответствует идеальной изотропии. $\lambda$ $[0\dots 1]$ $1$

Итерационный алгоритм [ править ]

Используя эту математическую структуру, алгоритм аффинного детектора Харриса итеративно обнаруживает матрицу второго момента, которая преобразует анизотропную область в нормированную область, в которой изотропная мера достаточно близка к единице. Алгоритм использует эту форму адаптации матрицы , , чтобы преобразовать изображение в нормализованной системе отсчета. В этом нормализованном пространстве параметры точек интереса (пространственное положение, масштаб интегрирования и шкала дифференциации) уточняются с использованием методов, аналогичных детектору Харриса-Лапласа. Матрица второго момента вычисляется в этой нормализованной системе отсчета и должна иметь изотропную меру, близкую к единице на последней итерации. На каждом $U$ $k$ На итерации каждая интересующая область определяется несколькими параметрами, которые алгоритм должен обнаружить: матрицей, положением , масштабом интегрирования и масштабом дифференциации . Поскольку детектор вычисляет матрицу второго момента в преобразованной области, это преобразованное положение удобно обозначить как где . $U^{(k)}$ $\mathbf {x} ^{(k)}$ $\sigma _{I}^{(k)}$ $\sigma _{D}^{(k)}$ $\mathbf {x} _{w}^{(k)}$ $U^{(k)}\mathbf {x} _{w}^{(k)}=\mathbf {x^{(k)}}$

Детектор инициализирует пространство поиска точками, обнаруженными детектором Харриса-Лапласа.
$U^{(0)}={\mathit {identity}}$ и , и те , от детектора Харриса-Лапласа. $\mathbf {x} ^{(0)}$ $\sigma _{D}^{(0)}$ $\sigma _{I}^{(0)}$
Применение предыдущей итерации формы адаптации матрицы , чтобы сформировать нормированный опорный кадр, . Для первой итерации вы подаете заявку . $U^{(k-1)}$ $U^{(k-1)}\mathbf {x} _{w}^{(k-1)}=\mathbf {x} ^{(k-1)}$ $U^{(0)}$
Выберите масштаб интеграции , с использованием метода , аналогичного детектора Харриса-Лапласа. Масштаб выбран как масштаб, который максимизирует лапласиан гауссиана (LoG). Пространство поиска шкал - это те, которые находятся в пределах двух пространств шкалы предыдущей шкалы итераций. $\sigma _{I}^{(k)}$
$\sigma _{I}^{(k)}={\underset {\sigma _{I}=t\sigma _{I}^{(k-1)} \atop t\in [0.7,\dots ,1.4]}{\operatorname {argmax} }}\,\sigma _{I}^{2}\det(L_{xx}(\mathbf {x} ,\sigma _{I})+L_{yy}(\mathbf {x} ,\sigma _{I}))$
Важно отметить, что масштаб интегрирования в пространстве значительно отличается от ненормализованного пространства. Следовательно, необходимо искать масштаб интегрирования, а не использовать масштаб в ненормализованном пространстве. $U-normalized$
Выберите масштаб дифференциации , . Для того , чтобы уменьшить пространство поиска и степени свободы, масштаб дифференциации берутся быть связан с интеграционным масштабом через постоянный множитель: . По понятным причинам постоянный коэффициент меньше единицы. Миколайчик и Шмид (2001) отмечают, что слишком маленький коэффициент сделает сглаживание (интегрирование) слишком значительным по сравнению с дифференцированием, а слишком большой коэффициент не позволит интегрированию усреднить ковариационную матрицу. ^[9] Это обычное дело . Из этого набора выбранный масштаб максимизирует изотропную меру . $\sigma _{D}^{(k)}$ $\sigma _{D}^{k}=s\sigma _{I}^{k}$ $s\in [0.5,0.75]$ ${\mathcal {Q}}={\frac {\lambda _{min}(\mu )}{\lambda _{max}(\mu )}}$
$\sigma _{D}^{(k)}={\underset {\sigma _{D}=s\sigma _{I}^{(k)},\;s\in [0.5,\dots ,0.75]}{\operatorname {argmax} }}\,{\frac {\lambda _{\min }(\mu (\mathbf {x} _{w}^{(k)},\sigma _{I}^{k},\sigma _{D}))}{\lambda _{\max }(\mu (\mathbf {x} _{w}^{(k)},\sigma _{I}^{k},\sigma _{D}))}}$
где - матрица второго момента, вычисленная в нормализованной системе отсчета. Этот процесс максимизации приводит к тому, что собственные значения сходятся к одному и тому же значению. $\mu (\mathbf {x} _{w}^{(k)},\sigma _{I}^{k},\sigma _{D})$
Пространственная локализация: выберите точку, которая максимизирует угловую меру Харриса ( ) в пределах 8-точечной окрестности вокруг предыдущей точки. $\mathbf {x} _{w}^{(k)}$ ${\mathit {cornerness}}$ $\mathbf {x} _{w}^{(k-1)}$
$\mathbf {x} _{w}^{(k)}={\underset {\mathbf {x} _{w}\in W(\mathbf {x} _{w}^{(k-1)})}{\operatorname {argmax} }}\,\det(\mu (\mathbf {x} _{w},\sigma _{I}^{k},\sigma _{D}^{(k)}))-\alpha \operatorname {trace} ^{2}(\mu (\mathbf {x} _{w},\sigma _{I}^{k},\sigma _{D}^{(k)}))$
где - матрица второго момента, как определено выше. Окно представляет собой набор из 8-ми ближайших соседей точки предыдущей итерации в нормализованном опорном кадре. Поскольку наша пространственная локализация была выполнена в нормализованной системе отсчета, вновь выбранная точка должна быть преобразована обратно в исходную систему отсчета. Это достигается путем преобразования вектора смещения и добавления его к предыдущей точке: $\mu$ $W(\mathbf {x} _{w}^{(k-1)})$ $U$
$\mathbf {x} ^{(k)}=\mathbf {x} ^{(k-1)}+U^{(k-1)}\cdot (\mathbf {x} _{w}^{(k)}-\mathbf {x} _{w}^{(k-1)})$
Как упоминалось выше, квадратный корень из матрицы второго момента определяет матрицу преобразования, которая генерирует нормализованную систему отсчета. Таким образом , мы должны сохранить эту матрицу: . Матрица преобразования обновляется: . Для того , чтобы убедиться , что изображение получает правильно пробы , и мы расширяем изображение в направлении наименьшего изменения (наименьшее собственное значение), мы фиксируем максимальное собственное значение: . Используя этот метод обновления, легко увидеть, что итоговая матрица принимает следующий вид: $\mu _{i}^{(k)}=\mu ^{-{\tfrac {1}{2}}}(\mathbf {x} _{w}^{(k)},\sigma _{I}^{(k)},\sigma _{D}^{(k)})$ $U$ $U^{(k)}=\mu _{i}^{(k)}\cdot U^{(k-1)}$ $\lambda _{max}(U^{(k)})=1$ $U$
$U=\prod _{k}\mu _{i}^{(k)}\cdot U^{(0)}=\prod _{k}(\mu ^{-{\tfrac {1}{2}}})^{(k)}\cdot U^{(0)}$
Если критерий остановки не соблюден, переходите к следующей итерации на шаге 2. Поскольку алгоритм итеративно решает матрицу, которая преобразует анизотропную область в изотропную, имеет смысл остановиться, когда изотропная мера достаточно близка к его максимальное значение 1. Достаточно близко подразумевает следующее условие остановки : $U-normalization$ ${\mathcal {Q}}={\frac {\lambda _{\min }(\mu )}{\lambda _{\max }(\mu )}}$
$1-{\frac {\lambda _{\min }(\mu _{i}^{(k)})}{\lambda _{\max }(\mu _{i}^{(k)})}}<\varepsilon _{C}$
Миколайчик и Шмид (2004) добились хороших результатов . $\epsilon _{C}=0.05$

Расчет и реализация [ править ]

Вычислительная сложность детектора Харриса-Аффинного разбита на две части: обнаружение начальной точки и нормализация аффинной области. Алгоритм определения начальной точки, Харрис-Лаплас, имеет сложность, где - количество пикселей в изображении. Алгоритм аффинной области нормализации автоматически определяет масштаб и оценивает адаптационную матрицу формы , . Этот процесс имеет сложность , где - количество начальных точек, - это размер области поиска для автоматического выбора масштаба и - это количество итераций, необходимых для вычисления матрицы. ^[11] ${\mathcal {O}}(n)$ $n$ $U$ ${\mathcal {O}}((m+k)p)$ $p$ $m$ $k$ $U$

Существуют некоторые методы, позволяющие снизить сложность алгоритма за счет точности. Один из способов - исключить поиск на шаге шкалы дифференциации. Вместо того , чтобы выбрать фактор из множества факторов ускорились вверх алгоритм выбирает масштаб постоянных по итерациям и точкам: . Хотя это сокращение пространства поиска может снизить сложность, это изменение может серьезно повлиять на сходимость матрицы. $s$ $\sigma _{D}=s\sigma _{I},\;s=constant$ $U$

Анализ [ править ]

Конвергенция [ править ]

Можно представить, что этот алгоритм может идентифицировать повторяющиеся точки интереса в разных масштабах. Поскольку аффинный алгоритм Харриса смотрит на каждую начальную точку, заданную детектором Харриса-Лапласа, независимо, нет различения между идентичными точками. На практике было показано, что в конечном итоге все эти точки сходятся к одной и той же точке интереса. После завершения определения всех точек интереса алгоритм учитывает дубликаты, сравнивая пространственные координаты ( ), масштаб интегрирования , изотропную меру и перекос. ^[11] $\mathbf {x}$ $\sigma _{I}$ ${\tfrac {\lambda _{\min }(U)}{\lambda _{\max }(U)}}$ Если эти параметры точки интереса подобны в пределах указанного порогового значения, они помечаются как дубликаты. Алгоритм отбрасывает все эти повторяющиеся точки, кроме точки интереса, которая наиболее близка к среднему значению дубликатов. Обычно 30% аффинных точек Харриса достаточно различны и различны, чтобы их нельзя было отбросить. ^[11]

Миколайчик и Шмид (2004) показали, что часто начальные точки (40%) не сходятся. Алгоритм обнаруживает это расхождение путем остановки итерационного алгоритма , если обратное изотропного мера больше определенного порогового значения: . Миколайчик и Шмид (2004) используют . Из тех, которые действительно сходились, типичное количество требуемых итераций составляло 10. ^[2] ${\tfrac {\lambda _{\max }(U)}{\lambda _{\min }(U)}}>t_{\text{diverge}}$ $t_{diverge}=6$

Количественная мера [ править ]

Количественный анализ детекторов аффинных областей учитывает как точность расположения точек, так и перекрытие областей на двух изображениях. Mioklajcyzk и Schmid (2004) расширили критерий повторяемости Schmid et al. (1998) как отношение точечных соответствий к минимуму обнаруженных точек двух изображений. ^[11]^[13]

R_{\text{score}}={\frac {C(A,B)}{\min(n_{A},n_{B})}}

где - количество соответствующих точек на изображениях и . и - количество обнаруженных точек на соответствующих изображениях. Поскольку каждое изображение представляет собой трехмерное пространство, может случиться так, что одно изображение содержит объекты, которых нет на втором изображении, и, следовательно, точки интереса не имеют шансов на совпадение. Чтобы сделать меру повторяемости действительной, нужно удалить эти точки и рассматривать только те точки, которые лежат на обоих изображениях; и считать только те точки, что . Для пары из двух изображений, связанных посредством матрицы гомографии , две точки и считаются соответствующими, если: $C(A,B)$ $A$ $B$ $n_{B}$ $n_{A}$ $n_{A}$ $n_{B}$ $x_{A}=H\cdot x_{B}$ $H$ $\mathbf {x_{a}}$ $\mathbf {x_{b}}$

Область перекрытия двух эллиптических областей.

Ошибка в расположении пикселя менее 1,5 пикселя: $\|\mathbf {x_{a}} -H\cdot \mathbf {x_{b}} \|<1.5$
Ошибка перекрытия двух аффинных точек ( ) должна быть меньше , чем заданное пороговое значение ( как правило , 40%). ^[1] Для аффинных регионов эта ошибка перекрытия следующая: $\epsilon _{S}$
$\epsilon _{S}=1-{\frac {\mu _{a}\cap (H^{T}\mu _{b}H)}{\mu _{a}\cup (H^{T}\mu _{b}H)}}$
где и являются выздоровел эллиптическую область , чьи точки удовлетворяют: . По сути, эта мера требует соотношения площадей: площади перекрытия (пересечения) и общей площади (объединения). Идеальное перекрытие будет иметь коэффициент, равный единице, и иметь ширину . Различные масштабы влияют на область перекрытия и, следовательно, должны приниматься во внимание путем нормализации области каждой интересующей области. Области с ошибкой перекрытия до 50% являются жизнеспособными детекторами, которые нужно сопоставить с хорошим дескриптором. ^[1] $\mu _{a}$ $\mu _{b}$ $\mu ^{T}\mathbf {x} \mu =1$ $\epsilon _{S}=0$
Второй показатель, оценка совпадения , более практично оценивает способность детектора определять точки совпадения между изображениями. Миколайчик и Шмид (2005) используют дескриптор SIFT для определения совпадающих точек. Помимо того, что две совпадающие точки являются ближайшими точками в пространстве SIFT, они также должны иметь достаточно небольшую ошибку перекрытия (как определено в показателе повторяемости). Оценка соответствия - это отношение количества совпавших точек к минимуму общего количества обнаруженных точек на каждом изображении:
$M_{score}={\frac {M(A,B)}{\min(n_{A},n_{B})}}$ , ^[1]
где это количество совпадающих точек и и является количеством обнаруженных областей в соответствующих изображениях. $M(A,B)$ $n_{B}$ $n_{A}$

Устойчивость к аффинным и другим преобразованиям [ править ]

Mikolajczyk et al. (2005) сделал тщательный анализ несколько государства в самом современном аффинной области детекторов: Харрис аффинных, Гессиан аффинного , MSER , ^[14] IBR & EBR ^[15] и выступ ^[16] детекторы. ^[1] Mikolajczyk et al. проанализировали как структурированные, так и текстурированные изображения в своей оценке. Бинарные файлы для Linux детекторов и их тестовые изображения находятся в свободном доступе на их веб-странице . Краткое изложение результатов Mikolajczyk et al. (2005) следовать; см . Сравнение детекторов аффинных областей для более количественного анализа.

Изменение угла обзора: аффинный детектор Харриса обладает разумной (средней) устойчивостью к этим типам изменений. Детектор поддерживает показатель повторяемости выше 50% до тех пор, пока угол обзора не превышает 40 градусов. Детектор имеет тенденцию обнаруживать большое количество повторяемых и согласованных областей даже при большом изменении точки обзора.
Изменение масштаба: аффинный детектор Харриса остается очень стабильным при изменении масштаба. Хотя количество точек значительно снижается при больших изменениях масштаба (выше 2,8), повторяемость (50-60%) и оценки соответствия (25-30%) остаются очень постоянными, особенно для текстурированных изображений. Это согласуется с высокой производительностью итеративного алгоритма автоматического выбора масштаба.
Размытые изображения: аффинный детектор Харриса остается очень стабильным при размытости изображения. Поскольку детектор не полагается на сегментацию изображения или границы областей, показатели повторяемости и совпадения остаются постоянными.
Артефакты JPEG: аффинный детектор Харриса деградирует так же, как и другие аффинные детекторы: показатели повторяемости и совпадения значительно снижаются при сжатии более 80%.
Изменения освещенности: аффинный детектор Харриса, как и другие аффинные детекторы, очень устойчив к изменениям освещенности: повторяемость и оценки совпадения остаются постоянными при уменьшении освещенности. Этого следовало ожидать, потому что детекторы в значительной степени полагаются на относительные интенсивности (производные), а не на абсолютные интенсивности.

Общие тенденции [ править ]

Точки аффинной области Харриса обычно малы и многочисленны. И детектор Harris-Affine, и Hessian-Affine последовательно идентифицируют удвоенное количество повторяемых точек по сравнению с другими аффинными детекторами: ~ 1000 областей для изображения 800x640. ^[1] Небольшие области с меньшей вероятностью будут закрыты, но имеют меньшую вероятность перекрытия соседних областей.
Аффинный детектор Харриса хорошо реагирует на текстурированные сцены, в которых много угловых частей. Однако для некоторых структурированных сцен, таких как здания, детектор Харриса-Аффинного работает очень хорошо. Это дополняет MSER, который имеет тенденцию лучше работать с хорошо структурированными (сегментированными) сценами.
В целом аффинный детектор Харриса работает очень хорошо, но все еще уступает MSER и Hessian-Affine во всех случаях, кроме размытых изображений.
Детекторы Harris-Affine и Hessian-Affine менее точны, чем другие: их показатель повторяемости увеличивается с увеличением порога перекрытия.
Обнаруженные аффинно-инвариантные области могут по-прежнему отличаться поворотом и освещением. Любой дескриптор, который использует эти области, должен учитывать инвариантность при использовании областей для сопоставления или других сравнений.

Приложения [ править ]

Поиск изображений на основе содержимого ^[17]^[18]
Распознавание на основе модели
Извлечение объекта на видео ^[19]
Визуальный анализ данных: определение важных объектов, персонажей и сцен в видео ^[20]
Распознавание и категоризация объектов ^[21]
Анализ изображений с дистанционным зондированием : обнаружение объектов по изображениям с дистанционным зондированием ^[22]

Пакеты программного обеспечения [ править ]

Аффинные ковариантные функции : К. Миколайчик поддерживает веб-страницу, которая содержит двоичные файлы Linux детектора Harris-Affine в дополнение к другим детекторам и дескрипторам. Также доступен код Matlab, который можно использовать для иллюстрации и вычисления повторяемости различных детекторов. Также доступны код и изображения для дублирования результатов, найденных в Mikolajczyk et al. (2005) бумага.
lip-vireo - бинарный код для Linux, Windows и SunOS от исследовательской группы VIREO. Смотрите больше на домашней странице

Внешние ссылки [ править ]

Поищите информацию об анизотропии в Викисловаре, бесплатном словаре.

Поищите информацию об изотропии в Викисловаре, бесплатном словаре.

Поищите affine в Викисловаре, бесплатном словаре.

[1] - Презентационные слайды Mikolajczyk et al. на их бумаге 2005 года.
[2] - Лаборатория компьютерного зрения Корделии Шмид.
[3] - Код, тестовые изображения, библиография аффинных ковариантных функций, поддерживаемая Кристианом Миколайчиком и группой визуальной геометрии из группы робототехники Оксфордского университета.
[4] - Библиография детекторов признаков (и блобов), поддерживаемая Институтом робототехники и интеллектуальных систем Университета Южной Калифорнии.
[5] - Цифровая реализация лапласиана Гаусса

См. Также [ править ]

Гессен-аффинный
MSER
Детектор выраженности кадира брэди
Масштабировать пространство
Изотропия
Обнаружение углов
Обнаружение точки интереса
Адаптация аффинной формы
Производные изображения
Компьютерное зрение
ASIFT -> Affine-Sift (полностью аффинный инвариантный алгоритм сопоставления изображений)

Ссылки [ править ]

^ a b c d e f К. Миколайчик, Т. Туйтелаарс, К. Шмид, А. Зиссерман, Дж. Матас, Ф. Шаффалицки, Т. Кадир и Л. Ван Гул, Сравнение детекторов аффинных областей. В IJCV 65 (1/2): 43-72, 2005.
^ a b Миколайчик К. и Шмид К. 2002. Аффинный инвариантный детектор точки интереса. В материалах 8-й Международной конференции по компьютерному зрению , Ванкувер, Канада.
^ а б Т. Линдеберг и Дж. Гардинг (1997). «Адаптированное к форме сглаживание при оценке 3- {D} сигналов глубины от аффинных искажений локальной 2- {D} структуры». Image and Vision Computing 15: pp 415-434.
^ A. Baumberg (2000). «Надежное сопоставление функций в широко разделенных представлениях». Труды конференции IEEE по компьютерному зрению и распознаванию образов: страницы I: 1774–1781.
^ Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении, Kluwer Academic Publishers, 1994 , ISBN 0-7923-9418-6
^ а б в Т. Линдеберг (1998). «Обнаружение признаков с автоматическим выбором шкалы». Международный журнал компьютерного зрения 30 (2): стр. 77—116.
^ Линдеберга, Т. (2008). «Масштаб-пространство» . In Wah, Бенджамин (ред.). Энциклопедия компьютерных наук и инженерии . IV . Джон Вили и сыновья. С. 2495–2504. DOI : 10.1002 / 9780470050118.ecse609 . ISBN 978-0470050118.
^ а б К. Харрис и М. Стивенс (1988). «Комбинированный детектор угла и края». Материалы 4-й конференции Alvey Vision: страницы 147–151. Архивировано 16 сентября 2007 г., в Wayback Machine.
^ a b c К. Миколайчик и К. Шмид. Индексирование на основе инвариантных к масштабу точек интереса. В материалах 8-й Международной конференции по компьютерному зрению, Ванкувер, Канада, страницы 525-531, 2001.
^ Шмид, К., Мор, Р., и Бокхэдж, С. 2000. Оценка детекторов точки интереса. Международный журнал компьютерного зрения, 37 (2): 151-172.
^ a b c d e f Миколайчик, К. и Шмид, К. 2004. Масштабные и аффинные инвариантные детекторы точки интереса. Международный журнал компьютерного зрения 60 (1): 63-86.
^ Пространственные фильтры: лапласиан / лапласиан гауссиана
^ С. Schmid, Р. Мор и С. Bauckhage. Сравнение и оценка точек интереса . В Международной конференции по компьютерному зрению , стр. 230-135, 1998.
^ Дж. Матас, О. Чум, М. Урбан и Т. Пайдла, Устойчивое стереозвучание с широкой базой из максимально стабильных экстремальных регионов. В BMVC п. 384-393, 2002.
^ T. Tuytelaars и L. Van Gool, Сопоставление широко разделенных взглядов, основанных на аффинно-инвариантных областях. В IJCV 59 (1): 61-85, 2004.
^ Т. Кадир, А. Зиссерман и М. Брэди, Детектор аффинно-инвариантной выступающей области. В ECCV п. 404-416, 2004.
^ http://staff.science.uva.nl/~gevers/pub/overview.pdf
^ Р. Датта, Дж. Ли и Дж. З. Ван, «Поиск изображений на основе содержания - подходы и тенденции новой эпохи», In Proc. Int. Семинар по поиску мультимедийной информации, стр. 253-262, 2005 г. IEEE Transactions on Multimedia, vol. 7, вып. 1, pp. 127-142, 2005. Архивировано 28 сентября 2007 г. в Wayback Machine.
^ J. Sivic и А. Зиссерман. Видео Google: метод поиска текста для сопоставления объектов в видео. В материалах Международной конференции по компьютерному зрению, Ницца, Франция, 2003 г.
^ J. Sivic и А. Зиссерман. Интеллектуальный анализ видеоданных с использованием конфигураций инвариантных областей точки обзора. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, Вашингтон, округ Колумбия, США, стр. 488-495, 2004.
^ Г. Дорко и К. Шмид. Выбор масштабно-инвариантных окрестностей для распознавания классов объектов. В материалах Международной конференции по компьютерному зрению, Ницца, Франция, стр. 634-640, 2003.
^ Beril Sirmacek и Cem Unsalan (январь 2011). «Вероятностная основа для обнаружения зданий на аэрофотоснимках и спутниковых снимках» (PDF) . IEEE Transactions по наукам о Земле и дистанционному зондированию . 49 (1): 211–221. DOI : 10,1109 / TGRS.2010.2053713 . S2CID 10637950 .

[miko05-1] К. Миколайчик, Т. Туйтелаарс, К. Шмид, А. Зиссерман, Дж. Матас, Ф. Шаффалицки, Т. Кадир и Л. Ван Гул, Сравнение детекторов аффинных областей. В IJCV 65 (1/2): 43-72, 2005.

[miko02-2] Миколайчик К. и Шмид К. 2002. Аффинный инвариантный детектор точки интереса. В материалах 8-й Международной конференции по компьютерному зрению , Ванкувер, Канада.

[lindgard97-3] а б Т. Линдеберг и Дж. Гардинг (1997). «Адаптированное к форме сглаживание при оценке 3- {D} сигналов глубины от аффинных искажений локальной 2- {D} структуры». Image and Vision Computing 15: pp 415-434.

[4] A. Baumberg (2000). «Надежное сопоставление функций в широко разделенных представлениях». Труды конференции IEEE по компьютерному зрению и распознаванию образов: страницы I: 1774–1781.

[lin94-5] Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении, Kluwer Academic Publishers, 1994 , ISBN 0-7923-9418-6

[lin98-6] а б в Т. Линдеберг (1998). «Обнаружение признаков с автоматическим выбором шкалы». Международный журнал компьютерного зрения 30 (2): стр. 77—116.

[7] Линдеберга, Т. (2008). «Масштаб-пространство» . In Wah, Бенджамин (ред.). Энциклопедия компьютерных наук и инженерии . IV . Джон Вили и сыновья. С. 2495–2504. DOI : 10.1002 / 9780470050118.ecse609 . ISBN 978-0470050118.

[harris88-8] а б К. Харрис и М. Стивенс (1988). «Комбинированный детектор угла и края». Материалы 4-й конференции Alvey Vision: страницы 147–151. Архивировано 16 сентября 2007 г., в Wayback Machine.

[miko01-9] К. Миколайчик и К. Шмид. Индексирование на основе инвариантных к масштабу точек интереса. В материалах 8-й Международной конференции по компьютерному зрению, Ванкувер, Канада, страницы 525-531, 2001.

[10] Шмид, К., Мор, Р., и Бокхэдж, С. 2000. Оценка детекторов точки интереса. Международный журнал компьютерного зрения, 37 (2): 151-172.

[miko04-11] Миколайчик, К. и Шмид, К. 2004. Масштабные и аффинные инвариантные детекторы точки интереса. Международный журнал компьютерного зрения 60 (1): 63-86.

[12] Пространственные фильтры: лапласиан / лапласиан гауссиана

[schmid98-13] С. Schmid, Р. Мор и С. Bauckhage. Сравнение и оценка точек интереса . В Международной конференции по компьютерному зрению , стр. 230-135, 1998.

[14] Дж. Матас, О. Чум, М. Урбан и Т. Пайдла, Устойчивое стереозвучание с широкой базой из максимально стабильных экстремальных регионов. В BMVC п. 384-393, 2002.

[15] T. Tuytelaars и L. Van Gool, Сопоставление широко разделенных взглядов, основанных на аффинно-инвариантных областях. В IJCV 59 (1): 61-85, 2004.

[16] Т. Кадир, А. Зиссерман и М. Брэди, Детектор аффинно-инвариантной выступающей области. В ECCV п. 404-416, 2004.

[17] ttp://staff.science.uva.nl/~gevers/pub/overview.pdf

[18] Р. Датта, Дж. Ли и Дж. З. Ван, «Поиск изображений на основе содержания - подходы и тенденции новой эпохи», In Proc. Int. Семинар по поиску мультимедийной информации, стр. 253-262, 2005 г. IEEE Transactions on Multimedia, vol. 7, вып. 1, pp. 127-142, 2005. Архивировано 28 сентября 2007 г. в Wayback Machine.

[19] J. Sivic и А. Зиссерман. Видео Google: метод поиска текста для сопоставления объектов в видео. В материалах Международной конференции по компьютерному зрению, Ницца, Франция, 2003 г.

[20] J. Sivic и А. Зиссерман. Интеллектуальный анализ видеоданных с использованием конфигураций инвариантных областей точки обзора. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, Вашингтон, округ Колумбия, США, стр. 488-495, 2004.

[21] Г. Дорко и К. Шмид. Выбор масштабно-инвариантных окрестностей для распознавания классов объектов. В материалах Международной конференции по компьютерному зрению, Ницца, Франция, стр. 634-640, 2003.

[Sirmacek2011a-22] Beril Sirmacek и Cem Unsalan (январь 2011). «Вероятностная основа для обнаружения зданий на аэрофотоснимках и спутниковых снимках» (PDF) . IEEE Transactions по наукам о Земле и дистанционному зондированию . 49 (1): 211–221. DOI : 10,1109 / TGRS.2010.2053713 . S2CID 10637950 .