Восьмибалльный алгоритм

Алгоритм восемь-точки является алгоритмом , используемым в области компьютерного зрения , чтобы оценить необходимую матрицу или фундаментальную матрицу , связанную с парой стерео камеры из набора соответствующих точек изображения. Он был введен Кристофером Лонге-Хиггинсом в 1981 году для случая существенной матрицы. Теоретически этот алгоритм можно использовать и для фундаментальной матрицы, но на практике для этого случая лучше подходит нормализованный восьмиточечный алгоритм , описанный Ричардом Хартли в 1997 году.

Название алгоритма происходит от того факта, что он оценивает существенную матрицу или фундаментальную матрицу по набору из восьми (или более) соответствующих точек изображения. Однако варианты алгоритма можно использовать менее чем для восьми точек.

Ограничение компланарности

Пример эпиполярной геометрии. Две камеры, с их соответствующими центрами проекции точек вывода _L и O _R , наблюдать точку P . Проекция P на каждую из плоскостей изображения обозначается р _L и р _R . Точки E _L и E _R - эпиполи.

Можно выразить эпиполярную геометрию двух камер и точки в пространстве с помощью алгебраического уравнения. Заметьте, что независимо от того, где находится точка ${\ displaystyle P}$ находится в пространстве, векторы ${\ displaystyle {\ overline {O_ {L} P}}}$ , ${\ displaystyle {\ overline {O_ {R} P}}}$ а также ${\ displaystyle {\ overline {O_ {R} O_ {L}}}}$ принадлежат к одной плоскости. Вызов ${\ displaystyle X_ {L}}$ координаты точки ${\ displaystyle P}$ в системе отсчета левого глаза и вызовите ${\ Displaystyle X_ {R}}$ координаты ${\ displaystyle P}$ в системе отсчета правого глаза и вызовите ${\ displaystyle R, T}$ вращение и перенос между двумя опорными системами st ${\ Displaystyle X_ {R} = R (X_ {L} -T)}$ это связь между координатами ${\ displaystyle P}$ в двух системах отсчета. Следующее уравнение всегда выполняется, потому что вектор, созданный из ${\ Displaystyle Т \ клин X_ {L}}$ ортогонален обоим ${\ displaystyle T}$ а также ${\ displaystyle X_ {L}}$ :

{\ Displaystyle X_ {L} ^ {T} T \ клин X_ {L} -T ^ {T} T \ клин X_ {L} = (X_ {L} -T) ^ {T} T \ клин X_ {L } = 0}

Так как ${\ Displaystyle I = R ^ {T} R}$ , мы получили

{\ Displaystyle (X_ {L} -T) ^ {T} R ^ {T} RT \ клин X_ {L} = 0}

.

Замена ${\ Displaystyle (X_ {L} -T) ^ {T} R ^ {T}}$ с участием ${\ Displaystyle X_ {R} ^ {T}}$ , мы получили

{\ Displaystyle X_ {R} ^ {T} RT \ клин X_ {L} = X_ {R} ^ {T} RSX_ {L} = X_ {R} ^ {T} EX_ {L} = 0}

Заметьте, что ${\ Displaystyle Т \ клин}$ можно рассматривать как матрицу; Лонге-Хиггинс использовал символ ${\ displaystyle S}$ чтобы обозначить это. Продукт ${\ Displaystyle RT \ wedge = RS}$ часто называется существенной матрицей и обозначается ${\ displaystyle E}$ .

Векторы ${\ displaystyle {\ overline {O_ {L} p_ {L}}}, {\ overline {O_ {R} p_ {R}}}}$ параллельны векторам ${\ displaystyle {\ overline {O_ {L} P}}, {\ overline {O_ {R} P}}}$ и, следовательно, ограничение компланарности выполняется, если мы подставляем эти векторы. Если мы позвоним ${\ displaystyle y, y '}$ координаты проекций ${\ displaystyle P}$ на левую и правую плоскости изображения, то ограничение компланарности можно записать как

{\ displaystyle y '^ {T} \ mathbf {E} y = 0}

Базовый алгоритм

Здесь описан базовый восьмибалльный алгоритм для случая оценки существенной матрицы ${\ displaystyle \ mathbf {E}}$ . Он состоит из трех шагов. Во-первых, он формулирует однородное линейное уравнение , решение которого напрямую связано с ${\ displaystyle \ mathbf {E}}$ , а затем решает уравнение, учитывая, что оно может не иметь точного решения. Наконец, внутренние ограничения результирующей матрицы управляются. Первый шаг описан в статье Лонге-Хиггинса, второй и третий шаги представляют собой стандартные подходы в теории оценивания.

Ограничение, определяемое существенной матрицей ${\ displaystyle \ mathbf {E}}$ является

{\ Displaystyle (\ mathbf {y} ') ^ {T} \, \ mathbf {E} \, \ mathbf {y} = 0}

для соответствующих точек изображения, представленных в нормализованных координатах изображения ${\ displaystyle \ mathbf {y}, \ mathbf {y} '}$ . Задача, которую решает алгоритм, состоит в том, чтобы определить ${\ displaystyle \ mathbf {E}}$ для набора совпадающих точек изображения. На практике координаты изображения точек изображения подвержены влиянию шума, и решение также может быть переопределено, что означает, что может быть невозможно найти ${\ displaystyle \ mathbf {E}}$ которое удовлетворяет указанному выше ограничению точно для всех точек. Эта проблема решается на втором этапе алгоритма.

Шаг 1: Формулировка однородного линейного уравнения

С участием

{\ Displaystyle \ mathbf {y} = {\ begin {pmatrix} y_ {1} \\ y_ {2} \\ 1 \ end {pmatrix}}}

а также

{\ displaystyle \ mathbf {y} '= {\ begin {pmatrix} y' _ {1} \\ y '_ {2} \\ 1 \ end {pmatrix}}}

а также

{\ displaystyle \ mathbf {E} = {\ begin {pmatrix} e_ {11} & e_ {12} & e_ {13} \\ e_ {21} & e_ {22} & e_ {23} \\ e_ {31} & e_ {32 } & e_ {33} \ end {pmatrix}}}

ограничение также можно переписать как

{\ displaystyle y '_ {1} y_ {1} e_ {11} + y' _ {1} y_ {2} e_ {12} + y '_ {1} e_ {13} + y' _ {2} y_ {1} e_ {21} + y '_ {2} y_ {2} e_ {22} + y' _ {2} e_ {23} + y_ {1} e_ {31} + y_ {2} e_ { 32} + e_ {33} = 0 \,}

или же

{\ Displaystyle \ mathbf {е} \ cdot {\ тильда {\ mathbf {y}}} = 0}

где

{\ displaystyle {\ tilde {\ mathbf {y}}} = {\ begin {pmatrix} y '_ {1} y_ {1} \\ y' _ {1} y_ {2} \\ y '_ {1 } \\ y '_ {2} y_ {1} \\ y' _ {2} y_ {2} \\ y '_ {2} \\ y_ {1} \\ y_ {2} \\ 1 \ end {pmatrix}}}

а также

{\ displaystyle \ mathbf {e} = {\ begin {pmatrix} e_ {11} \ e_ {12} \ e_ {13} \ e_ {21} \ e_ {22} \ e_ {23} \ \ e_ {31} \\ e_ {32} \\ e_ {33} \ end {pmatrix}}}

это, ${\ displaystyle \ mathbf {e}}$ представляет собой существенную матрицу в виде 9-мерного вектора, и этот вектор должен быть ортогонален вектору ${\ Displaystyle {\ тильда {\ mathbf {y}}}}$ которое можно рассматривать как векторное представление ${\ displaystyle 3 \ times 3}$ матрица ${\ Displaystyle \ mathbf {y} '\, \ mathbf {y} ^ {T}}$ .

Каждая пара соответствующих точек изображения дает вектор ${\ Displaystyle {\ тильда {\ mathbf {y}}}}$ . Учитывая набор 3D-точек ${\ displaystyle \ mathbf {P} _ {k}}$ это соответствует набору векторов ${\ displaystyle {\ tilde {\ mathbf {y}}} _ {k}}$ и все они должны удовлетворить

{\ displaystyle \ mathbf {e} \ cdot {\ tilde {\ mathbf {y}}} _ {k} = 0}

для вектора ${\ displaystyle \ mathbf {e}}$ . Если задано достаточно много (не менее восьми) линейно независимых векторов ${\ displaystyle {\ tilde {\ mathbf {y}}} _ {k}}$ можно определить ${\ displaystyle \ mathbf {e}}$ простым способом. Собрать все векторы ${\ displaystyle {\ tilde {\ mathbf {y}}} _ {k}}$ как столбцы матрицы ${\ displaystyle \ mathbf {Y}}$ и тогда должно быть так, что

{\ Displaystyle \ mathbf {e} ^ {T} \, \ mathbf {Y} = \ mathbf {0}}

Это значит, что ${\ displaystyle \ mathbf {e}}$ является решением однородного линейного уравнения .

Шаг 2: решение уравнения

Стандартный подход к решению этого уравнения подразумевает, что ${\ displaystyle \ mathbf {e}}$ это оставили особый вектор из ${\ displaystyle \ mathbf {Y}}$ соответствующий сингулярному значению , равному нулю. При условии, что не менее восьми линейно независимых векторов ${\ displaystyle {\ tilde {\ mathbf {y}}} _ {k}}$ используются для построения ${\ displaystyle \ mathbf {Y}}$ отсюда следует, что этот особый вектор единственен (без учета скалярного умножения) и, следовательно, ${\ displaystyle \ mathbf {e}}$ а потом ${\ displaystyle \ mathbf {E}}$ можно определить.

В случае использования более восьми соответствующих точек для построения ${\ displaystyle \ mathbf {Y}}$ возможно, что он не имеет сингулярного значения, равного нулю. На практике это случается, когда на координаты изображения влияют различные типы шума. Распространенный подход к этой ситуации - описать ее как задачу методом наименьших квадратов ; найти ${\ displaystyle \ mathbf {e}}$ что сводит к минимуму

{\ Displaystyle \ | \ mathbf {е} ^ {T} \, \ mathbf {Y} \ |}

когда ${\ Displaystyle \ | \ mathbf {е} \ | = 1}$ . Решение - выбрать ${\ displaystyle \ mathbf {e}}$ как левый сингулярный вектор, соответствующий наименьшему сингулярному значению ${\ displaystyle \ mathbf {Y}}$ . Переупорядочивание этого ${\ displaystyle \ mathbf {e}}$ обратно в ${\ displaystyle 3 \ times 3}$ матрица дает результат этого шага, называемого здесь ${\ displaystyle \ mathbf {E} _ {\ rm {est}}}$ .

Шаг 3: Обеспечение внутреннего ограничения

Другим следствием работы с координатами зашумленного изображения является то, что результирующая матрица может не удовлетворять внутреннему ограничению существенной матрицы, то есть два из ее сингулярных значений равны и не равны нулю, а другое - нулю. В зависимости от приложения, меньшие или большие отклонения от внутреннего ограничения могут быть или не быть проблемой. Если критически важно, чтобы оцениваемая матрица удовлетворяла внутренним ограничениям, это можно сделать, найдя матрицу ${\ displaystyle \ mathbf {E} '}$ ранга 2, что минимизирует

{\ displaystyle \ | \ mathbf {E} '- \ mathbf {E} _ {\ rm {est}} \ |}

где ${\ displaystyle \ mathbf {E} _ {\ rm {est}}}$ - матрица, полученная на шаге 2, и используется норма матрицы Фробениуса . Решение проблемы дается сначала вычислением разложения по сингулярным значениям ${\ displaystyle \ mathbf {E} _ {\ rm {est}}}$ :

{\ Displaystyle \ mathbf {E} _ {\ rm {est}} = \ mathbf {U} \, \ mathbf {S} \, \ mathbf {V} ^ {T}}

где ${\ Displaystyle \ mathbf {U}, \ mathbf {V}}$ ортогональные матрицы и ${\ displaystyle \ mathbf {S}}$ - диагональная матрица, содержащая сингулярные значения ${\ displaystyle \ mathbf {E} _ {\ rm {est}}}$ . В идеальном случае один из диагональных элементов ${\ displaystyle \ mathbf {S}}$ должен быть нулевым или, по крайней мере, маленьким по сравнению с двумя другими, которые должны быть равны. В любом случае установите

{\ displaystyle \ mathbf {S} '= {\ begin {pmatrix} s_ {1} & 0 & 0 \\ 0 & s_ {2} & 0 \\ 0 & 0 & 0 \ end {pmatrix}},}

где ${\ displaystyle s_ {1}, s_ {2}}$ - наибольшее и второе наибольшее сингулярные значения в ${\ displaystyle \ mathbf {S}}$ соответственно. Ну наконец то, ${\ displaystyle \ mathbf {E} '}$ дан кем-то

{\ Displaystyle \ mathbf {E} '= \ mathbf {U} \, \ mathbf {S}' \, \ mathbf {V} ^ {T}}

Матрица ${\ displaystyle \ mathbf {E} '}$ - итоговая оценка существенной матрицы, предоставляемой алгоритмом.

Нормализованный алгоритм

Базовый восьмиточечный алгоритм в принципе можно использовать также для оценки фундаментальной матрицы ${\ displaystyle \ mathbf {F}}$ . Определяющее ограничение для ${\ displaystyle \ mathbf {F}}$ является

{\ Displaystyle (\ mathbf {y} ') ^ {T} \, \ mathbf {F} \, \ mathbf {y} = 0}

где ${\ displaystyle \ mathbf {y}, \ mathbf {y} '}$ являются однородными представлениями соответствующих координат изображения (не обязательно нормализованными). Это означает, что можно сформировать матрицу ${\ displaystyle \ mathbf {Y}}$ аналогично основной матрице и решаем уравнение

{\ Displaystyle \ mathbf {f} ^ {T} \, \ mathbf {Y} = \ mathbf {0}}

для ${\ displaystyle \ mathbf {f}}$ который является измененной версией ${\ displaystyle \ mathbf {F}}$ . Следуя описанной выше процедуре, можно определить ${\ displaystyle \ mathbf {F}}$ из набора из восьми совпадающих точек. Однако на практике полученная фундаментальная матрица может оказаться бесполезной для определения эпиполярных ограничений.

Сложность

Проблема в том, что в результате ${\ displaystyle \ mathbf {Y}}$ часто находится в плохом состоянии . Теоретически, ${\ displaystyle \ mathbf {Y}}$ должно иметь одно сингулярное значение, равное нулю, а остальные ненулевые. Однако на практике некоторые из ненулевых сингулярных значений могут стать маленькими по сравнению с большими. Если более восьми соответствующих точек используются для построения ${\ displaystyle \ mathbf {Y}}$ , где координаты являются приблизительно правильными, может не быть четко определенного сингулярного значения, которое можно идентифицировать как приблизительно ноль. Следовательно, решение однородной линейной системы уравнений может быть недостаточно точным, чтобы быть полезным.

Причина

Хартли обратился к этой проблеме оценки в своей статье 1997 года. Его анализ проблемы показывает, что проблема вызвана плохим распределением координат однородных изображений в их пространстве, ${\ Displaystyle \ mathbb {R} ^ {3}}$ . Типичное однородное представление координат 2D-изображения ${\ Displaystyle (y_ {1}, y_ {2}) \,}$ является

{\ Displaystyle \ mathbf {y} = {\ begin {pmatrix} y_ {1} \\ y_ {2} \\ 1 \ end {pmatrix}}}

где оба ${\ displaystyle y_ {1}, y_ {2} \,}$ лежат в диапазоне от 0 до 1000–2000 для современной цифровой камеры. Это означает, что первые две координаты в ${\ displaystyle \ mathbf {y}}$ изменяются в гораздо большем диапазоне, чем третья координата. Кроме того, если точки изображения, которые используются для построения ${\ displaystyle \ mathbf {Y}}$ лежат в относительно небольшой области изображения, например на ${\ displaystyle (700,700) \ pm (100,100) \,}$ , снова вектор ${\ displaystyle \ mathbf {y}}$ указывает в более или менее одинаковом направлении для всех точек. Как следствие, ${\ displaystyle \ mathbf {Y}}$ будет иметь одно большое сингулярное значение, а остальные - маленькие.

Решение

В качестве решения этой проблемы Хартли предложил преобразовать систему координат каждого из двух изображений независимо в новую систему координат в соответствии со следующим принципом.

Начало новой системы координат должно быть центрировано (иметь начало) в центроиде (центре тяжести) точек изображения. Это достигается путем перевода исходного источника в новый.
После переноса координаты равномерно масштабируются, так что среднее расстояние от начала координат до точки равно ${\ displaystyle {\ sqrt {2}}}$ .

Этот принцип обычно приводит к отдельному преобразованию координат для каждого из двух изображений. В результате новые однородные координаты изображения ${\ displaystyle \ mathbf {\ bar {y}}, \ mathbf {\ bar {y}} '}$ даны

{\ Displaystyle \ mathbf {\ bar {y}} = \ mathbf {T} \, \ mathbf {y}}

{\ displaystyle \ mathbf {\ bar {y}} '= \ mathbf {T}' \, \ mathbf {y} '}

где ${\ displaystyle \ mathbf {T}, \ mathbf {T} '}$ - это преобразования (перевод и масштабирование) от старых к новым нормализованным координатам изображения . Эта нормализация зависит только от точек изображения, которые используются в одном изображении, и, как правило, отличается от нормализованных координат изображения, созданных нормализованной камерой.

Эпиполярное ограничение, основанное на фундаментальной матрице, теперь можно переписать как

{\ displaystyle 0 = (\ mathbf {\ bar {y}} ') ^ {T} \, ((\ mathbf {T}') ^ {T}) ^ {- 1} \, \ mathbf {F} \ , \ mathbf {T} ^ {- 1} \, \ mathbf {\ bar {y}} = (\ mathbf {\ bar {y}} ') ^ {T} \, \ mathbf {\ bar {F}} \, \ mathbf {\ bar {y}}}

где ${\ displaystyle \ mathbf {\ bar {F}} = ((\ mathbf {T} ') ^ {T}) ^ {- 1} \, \ mathbf {F} \, \ mathbf {T} ^ {- 1 }}$ . Это означает, что можно использовать нормализованные координаты однородного изображения. ${\ displaystyle \ mathbf {\ bar {y}}, \ mathbf {\ bar {y}} '}$ оценить преобразованную фундаментальную матрицу ${\ displaystyle \ mathbf {\ bar {F}}}$ используя базовый восьмибалльный алгоритм, описанный выше.

Цель преобразований нормализации состоит в том, чтобы матрица ${\ displaystyle \ mathbf {\ bar {Y}}}$ , построенный из нормализованных координат изображения, в общем случае имеет лучшее число обусловленности, чем ${\ displaystyle \ mathbf {Y}}$ имеет. Это означает, что решение ${\ displaystyle \ mathbf {\ bar {f}}}$ более точно определяется как решение однородного уравнения ${\ displaystyle \ mathbf {\ bar {Y}} \, \ mathbf {\ bar {f}}}$ чем ${\ displaystyle \ mathbf {f}}$ относительно ${\ displaystyle \ mathbf {Y}}$ . Один раз ${\ displaystyle \ mathbf {\ bar {f}}}$ был определен и преобразован в ${\ displaystyle \ mathbf {\ bar {F}}}$ последнее может быть денормализовано, чтобы дать ${\ displaystyle \ mathbf {F}}$ в соответствии с

{\ Displaystyle \ mathbf {F} = (\ mathbf {T} ') ^ {T} \, \ mathbf {\ bar {F}} \, \ mathbf {T}}

В общем, эта оценка фундаментальной матрицы лучше, чем была бы получена путем оценки по ненормированным координатам.

Использование менее восьми точек

Каждая пара точек вносит свой вклад с одним ограничивающим уравнением для элемента в ${\ displaystyle \ mathbf {E}}$ . С ${\ displaystyle \ mathbf {E}}$ имеет пять степеней свободы, поэтому достаточно всего пяти пар точек для определения ${\ displaystyle \ mathbf {E}}$ . Хотя это возможно с теоретической точки зрения, практическая реализация этого не проста и основана на решении различных нелинейных уравнений.

Каве Фатиан и др. предложены алгоритмы для пяти, шести и семи точек, которые обходят вычисление существенной матрицы, вычисляя кватернион вращения напрямую. ^[1]^[2]

Смотрите также

дальнейшее чтение

Ричард И. Хартли (июнь 1997 г.). «В защиту восьмибалльного алгоритма». IEEE Transactions по распознаванию образов и машинному анализу . 19 (6): 580–593. DOI : 10.1109 / 34.601246 .

Ричард Хартли и Эндрю Зиссерман (2003). Многоканальная геометрия в компьютерном зрении . Издательство Кембриджского университета. ISBN 978-0-521-54051-3.

Х. Кристофер Лонге-Хиггинс (сентябрь 1981 г.). «Компьютерный алгоритм восстановления сцены из двух проекций». Природа . 293 (5828): 133–135. DOI : 10.1038 / 293133a0 .

[1] Fathian, Кава (2018). «QuEst: подход на основе кватернионов для оценки движения камеры по минимальным характерным точкам» . Письма IEEE по робототехнике и автоматизации . arXiv : 1704.02672 . DOI : 10,1109 / LRA.2018.2792142 .

[2] Фатиан, Кавех (2018). «Оценка относительной позы камеры для визуального следования с использованием кватернионов» . Робототехника и автономные системы . DOI : 10.1016 / j.robot.2018.05.014 .

[1]

Восьмибалльный алгоритм

Ограничение компланарности

Базовый алгоритм

Шаг 1: Формулировка однородного линейного уравнения

Шаг 2: решение уравнения

Шаг 3: Обеспечение внутреннего ограничения

Нормализованный алгоритм

Сложность

Причина

Решение

Использование менее восьми точек

Смотрите также

Рекомендации

дальнейшее чтение