Ускоренные надежные функции

В компьютерном зрении , ускорили надежные функции ( SURF ) являются запатентованным локальным детектором особенности и дескрипторы. Его можно использовать для таких задач, как распознавание объектов , регистрация изображений , классификация или 3D-реконструкция . Он частично основан на дескрипторе масштабно-инвариантного преобразования функций (SIFT). Стандартная версия SURF в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.

Для обнаружения точек интереса SURF использует целочисленное приближение детерминанта гессенского детектора капель , который может быть вычислен с помощью 3 целочисленных операций с использованием предварительно вычисленного интегрального изображения . Его дескриптор функции основан на сумме отклика вейвлета Хаара вокруг интересующей точки. Их также можно вычислить с помощью интегрального изображения.

Дескрипторы SURF использовались для поиска и распознавания объектов, людей или лиц, для реконструкции трехмерных сцен, для отслеживания объектов и для извлечения достопримечательностей.

SURF был впервые опубликован Гербертом Бей , Тинне Туйтелаарсом и Люком Ван Гулем и представлен на Европейской конференции по компьютерному зрению в 2006 году . Применение алгоритма запатентовано в США. ^[1] «Вертикальная» версия SURF (называемая U-SURF) не инвариантна к повороту изображения и, следовательно, быстрее вычисляется и лучше подходит для приложений, в которых камера остается более или менее горизонтальной.

Изображение преобразуется в координаты, используя технику пирамиды с несколькими разрешениями , чтобы скопировать исходное изображение с пирамидальной гауссовой или лапласовской пирамидой, чтобы получить изображение того же размера, но с уменьшенной полосой пропускания. Таким образом достигается особый эффект размытия исходного изображения, называемый «Масштаб-пространство», и гарантируется неизменность масштаба интересующих точек.

Алгоритм и особенности

Алгоритм SURF основан на тех же принципах и шагах, что и SIFT; но детали на каждом этапе разные. Алгоритм состоит из трех основных частей: обнаружение точек интереса, описание местного района и сопоставление.

Обнаружение

SURF использует фильтры квадратной формы как приближение сглаживания по Гауссу . (Подход SIFT использует каскадные фильтры для обнаружения масштабно-инвариантных характеристических точек, где разность гауссианов (DoG) вычисляется на масштабированных изображениях постепенно.) Фильтрация изображения с квадратом выполняется намного быстрее, если используется интегральное изображение :

{\ displaystyle S (x, y) = \ sum _ {i = 0} ^ {x} \ sum _ {j = 0} ^ {y} I (i, j)}

Сумму исходного изображения в прямоугольнике можно быстро оценить с помощью интегрального изображения, что потребует оценки в четырех углах прямоугольника.

SURF использует детектор капель на основе матрицы Гессе для поиска интересных мест. Определитель гессенской матрицы используется как мера локального изменения вокруг точки и точки выбраны , где этот определитель является максимальным. В отличие от детектора Гессе-Лапласа Миколайчика и Шмида, SURF также использует детерминант Гессе для выбора масштаба, как это также сделал Линдеберг. Для точки p = (x, y) на изображении I матрица Гессе H (p, σ) в точке p и масштабе σ равна:

{\ Displaystyle H (p, \ sigma) = {\ begin {pmatrix} L_ {xx} (p, \ sigma) & L_ {xy} (p, \ sigma) \\ L_ {yx} (p, \ sigma) & L_ {yy} (p, \ sigma) \ end {pmatrix}}}

где ${\ Displaystyle L_ {хх} (р, \ сигма)}$ и т. д. - свертка второй производной гауссиана с изображением ${\ Displaystyle I (х, у)}$ в момент ${\ displaystyle p}$ .

Ящичный фильтр размером 9 × 9 представляет собой аппроксимацию гауссиана с σ = 1,2 и представляет самый низкий уровень (самое высокое пространственное разрешение) для карт отклика blob.

Масштабное представление и расположение достопримечательностей

Интересные моменты можно найти в разных масштабах, отчасти потому, что для поиска соответствий часто требуются сравнительные изображения, на которых они видны в разных масштабах. В других алгоритмах обнаружения признаков масштабное пространство обычно реализуется как пирамида изображения. Изображения многократно сглаживаются с помощью фильтра Гаусса, затем они подвергаются субдискретизации, чтобы получить следующий более высокий уровень пирамиды. Поэтому рассчитывается несколько этажей или лестниц с различными размерами масок:

{\ displaystyle \ sigma _ {\ text {приблизительно}} = {\ text {текущий размер фильтра}} \ times \ left ({\ frac {\ text {базовый масштаб фильтра}} {\ text {базовый размер фильтра}}} \верно)}

Масштабное пространство разделено на несколько октав, где октава относится к серии карт отклика, покрывающих удвоение шкалы. В SURF самый низкий уровень масштабного пространства получается из выходных данных фильтров 9 × 9.

Следовательно, в отличие от предыдущих методов, масштабные пространства в SURF реализуются путем применения блочных фильтров разных размеров. Соответственно, масштабное пространство анализируется путем увеличения размера фильтра, а не итеративного уменьшения размера изображения. Выход вышеупомянутого фильтра 9 × 9 рассматривается как начальный масштабный слой при масштабе s = 1,2 (соответствует производным Гаусса с σ = 1,2). Следующие слои получаются путем фильтрации изображения с постепенно увеличивающимися масками, принимая во внимание дискретный характер целостных изображений и особую структуру фильтра. В результате получаются фильтры размером 9 × 9, 15 × 15, 21 × 21, 27 × 27, .... Не максимальное подавление в окрестности 3 × 3 × 3 применяется для локализации точек интереса на изображении и в больших масштабах. . Максимумы определителя матрицы Гессе затем интерполируются в масштабе и пространстве изображения с помощью метода, предложенного Брауном и др. Интерполяция шкалы в пространстве особенно важна в этом случае, так как разница в шкале между первыми слоями каждой октавы относительно велика.

Дескриптор

Цель дескриптора - предоставить уникальное и надежное описание особенности изображения , например, путем описания распределения интенсивности пикселей в окрестностях интересующей точки. Таким образом, большинство дескрипторов вычисляются локально, следовательно, описание получается для каждой точки интереса, идентифицированной ранее.

Размерность дескриптора напрямую влияет как на его вычислительную сложность, так и на надежность / точность сопоставления точек. Короткий дескриптор может быть более устойчивым к вариациям внешнего вида, но может не обеспечивать достаточной дискриминации и, таким образом, давать слишком много ложных срабатываний.

Первый шаг состоит в фиксации воспроизводимой ориентации на основе информации из круговой области вокруг интересующей точки. Затем мы создаем квадратную область, выровненную по выбранной ориентации, и извлекаем из нее дескриптор SURF.

Назначение ориентации

Чтобы добиться инвариантности вращения, необходимо определить ориентацию интересующей точки. Отклики вейвлета Хаара в обоих направлениях x и y в круговой окрестности радиуса ${\ displaystyle 6s}$ вокруг интересующей точки вычисляются, где ${\ displaystyle s}$ - масштаб, в котором объект интереса был обнаружен. Полученные отклики взвешиваются с помощью функции Гаусса с центром в интересующей точке, затем наносятся на график в виде точек в двумерном пространстве с горизонтальным откликом на оси абсцисс и вертикальным откликом на ординате . Доминирующая ориентация оценивается путем вычисления суммы всех ответов в пределах скользящего окна ориентации размером π / 3. Горизонтальные и вертикальные отклики в окне суммируются. Два суммированных ответа затем дают локальный вектор ориентации. Самый длинный такой вектор в целом определяет ориентацию интересующей точки. Размер скользящего окна - это параметр, который необходимо тщательно выбирать для достижения желаемого баланса между надежностью и угловым разрешением.

Дескриптор, основанный на сумме откликов вейвлетов Хаара

Чтобы описать область вокруг точки, извлекается квадратная область, центрируется на точке интереса и ориентируется по ориентации, как выбрано выше. Размер этого окна - 20 сек.

Область интереса разделена на более мелкие квадратные подобласти 4x4, и для каждой из них вейвлет-отклики Хаара извлекаются в точках выборки 5x5 с регулярным интервалом. Отклики взвешиваются по гауссовскому закону (чтобы обеспечить большую устойчивость к деформациям, шуму и сдвигу).

Соответствие

Сравнивая дескрипторы, полученные из разных изображений, можно найти совпадающие пары.

Смотрите также

Источники

Герберт Бэй, Андреас Эсс, Тинне Туйтелаарс и Люк Ван Гул, « Ускоренные надежные функции », ETH Zurich, Katholieke Universiteit Leuven
Андреа Марисела Плаза Кордеро, Хорхе Луис Самбрано Мартинес, « Estudio y Selección de las Técnicas SIFT, SURF y ASIFT de Reconocimiento de Reconocimiento de Imágenes para el Diseño de un Prototipo en Dispositivos Móviles », 15º Concosurso de Móviles », 15º Concosurso de la Traveles
А. М. Ромеро и М. Касорла, " Comparativa de detectores de característicasvisuales y su aplicación al SLAM ", X Workshop de Agenttes físicos, Setiembre 2009, Касерес
PM Panchal, SR Panchal, SK Shah, " Сравнение SIFT и SURF ", Международный журнал инновационных исследований в компьютерной и коммуникационной технике Vol. 1, выпуск 2, апрель 2013 г.
Герберт Бэй, Андреас Эсс, Тинне Туйтелаарс, Люк Ван Гул «SURF: повышенные надежные функции» , Компьютерное зрение и понимание изображений (CVIU), Vol. 2008, 110, № 3, с. 346–359.
Кристофер Эванс «Заметки о библиотеке OpenSURF», магистр компьютерных наук, Бристольский университет; исходный код и документация заархивированы здесь
Джан Кнопп, Мукта Прасад, Герт Виллемс, Раду Тимофте и Люк Ван Гул, « Преобразование Хафа и 3D SURF для надежной трехмерной классификации », Европейская конференция по компьютерному зрению (ECCV), 2010 г.

Внешние ссылки

SURF на Github
Веб-сайт SURF: Ускоренные надежные функции
Первая публикация «Ускоренных надежных функций» (2006 г.)
Пересмотренная публикация SURF (2008 г.)

[1] US 2009238460 , Ryuji Funayama, Хиромичи Yanagihara, Люк Ван Gool, Tinne Tuytelaars, Герберт Bay, "РОБАСТНАЯ ИНТЕРЕС POINT ДЕТЕКТОР И DESCRIPTOR", опубликованной 2009-09-24

[1]