Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В области компьютерного зрения , обнаружение блобы методы нацелены на выявлении областей в цифровом изображении , которые отличаются по своим свойствам, таким как яркость или цвета, по сравнению с прилегающими регионами. Неформально капля - это область изображения, в которой некоторые свойства постоянны или приблизительно постоянны; все точки в большом двоичном объекте можно в некотором смысле считать похожими друг на друга. Самый распространенный метод обнаружения больших двоичных объектов - это свертка .

С учетом некоторого интересующего свойства, выраженного как функция положения на изображении, существует два основных класса детекторов blob: (i) дифференциальные методы , основанные на производных функции по положению, и (ii) методы, основанные на локальные экстремумы , основанные на нахождении локальных максимумов и минимумов функции. В соответствии с более современной терминологией, используемой в этой области, эти детекторы также могут называться операторами точки интереса или, альтернативно, операторами области интереса (см. Также определение точки интереса и обнаружение угла ).

Есть несколько причин для изучения и разработки детекторов blob. Одна из основных причин - предоставить дополнительную информацию о регионах, которая не может быть получена с помощью детекторов края или детекторов углов . На ранних этапах работы в этой области обнаружение блобов использовалось для получения интересующих областей для дальнейшей обработки. Эти области могут сигнализировать о присутствии объектов или частей объектов в области изображения с приложением для распознавания объектов и / или отслеживания объектов . В других областях, таких как анализ гистограмм , дескрипторы blob также могут использоваться для обнаружения пиков с приложением к сегментации . Еще одно распространенное использование дескрипторов blob - это основные примитивы для текстуры.анализ и распознавание текстур. В более поздних работах дескрипторы blob нашли все более популярное использование в качестве точек интереса для широкого базового стереосопоставления и для сигнализации наличия информативных функций изображения для распознавания объектов на основе внешнего вида на основе локальной статистики изображений. Существует также связанное с этим понятие обнаружения гребня, чтобы сигнализировать о наличии удлиненных объектов.

Лапласиан Гаусса [ править ]

Одним из первых , а также наиболее распространенных детекторов BLOb основан на лапласиане в гауссовом (LOG). Учитывая входное изображение , это изображение сворачивается гауссовым ядром

в определенном масштабе, чтобы дать представление о масштабном пространстве . Тогда результат применения оператора Лапласа

вычисляется, что обычно приводит к сильным положительным ответам для темных пятен с радиусом (для двухмерного изображения, для d-мерного изображения) и сильным отрицательным ответам для ярких пятен аналогичного размера. Однако основная проблема при применении этого оператора в одном масштабе заключается в том, что реакция оператора сильно зависит от соотношения между размером блоб-структур в области изображения и размером гауссова ядра, используемого для предварительного сглаживания. Следовательно, чтобы автоматически захватывать капли разного (неизвестного) размера в области изображения, необходим многомасштабный подход.

Простой способ получить многомасштабный детектор капель с автоматическим выбором масштаба - это рассмотреть нормированный по масштабу лапласовский оператор

и для обнаружения максимумов / минимумов пространства масштаба , то есть точек, которые одновременно являются локальными максимумами / минимумами как в пространстве, так и в масштабе (Lindeberg 1994, 1998). Таким образом, для заданного дискретного двумерного входного изображения вычисляется трехмерный дискретный объем масштабного пространства, и точка рассматривается как яркая (темная) капля, если значение в этой точке больше (меньше), чем значение во всех ее значениях. 26 соседей. Таким образом, одновременный выбор точек интереса и шкал осуществляется согласно

.

Обратите внимание, что это понятие большого двоичного объекта дает краткое и математически точное рабочее определение понятия «большой двоичный объект», которое напрямую ведет к эффективному и надежному алгоритму обнаружения больших двоичных объектов. Некоторые основные свойства капель, определенные из максимумов пространства масштаба нормализованного оператора Лапласа, заключаются в том, что отклики ковариантны с перемещениями, поворотами и масштабами в области изображения. Таким образом, если максимум масштабного пространства предполагается в точке, то при изменении масштаба изображения на коэффициент масштабирования будет максимум масштабного пространства в масштабированном изображении (Lindeberg 1998). Это на практике очень полезное свойство означает, что помимо конкретной темы обнаружения лапласовских капель,локальные максимумы / минимумы нормализованного по масштабу лапласиана также используются для выбора масштаба в других контекстах , таких как обнаружение углов , отслеживание масштабно-адаптивных признаков (Bretzner and Lindeberg 1998), в масштабно-инвариантном преобразовании признаков (Lowe 2004) как а также другие дескрипторы изображений для сопоставления изображений и распознавания объектов .

Свойства выбора масштаба для оператора Лапласа и других детекторов точек интереса, близких к масштабному пространству, подробно анализируются в (Lindeberg 2013a). [1] В (Lindeberg 2013b, 2015) [2] [3] показано, что существуют другие детекторы точки интереса в масштабном пространстве, такие как определитель оператора Гессе, которые работают лучше, чем оператор Лапласа или его разностная характеристика. -Гауссианское приближение для сопоставления на основе изображений с использованием локальных дескрипторов изображений, подобных SIFT.

Различие гауссианского подхода [ править ]

Из того факта, что представление в масштабном пространстве удовлетворяет уравнению диффузии

из этого следует, что лапласиан гауссовского оператора также может быть вычислен как предельный случай разницы между двумя гауссовскими сглаженными изображениями ( представления в масштабном пространстве )

.

В литературе по компьютерному зрению этот подход называется подходом различия гауссианов (DoG). Однако, помимо мелких технических деталей, этот оператор по сути похож на лапласиан и может рассматриваться как приближение оператора Лапласа. Подобно лапласовскому детектору блобов, капли могут быть обнаружены по экстремумам разностей гауссианов в масштабном пространстве - см. (Lindeberg 2012, 2015) [3] [4] явную связь между оператором разности гаусса и масштабно-нормированный оператор Лапласа. Этот подход, например, используется в алгоритме масштабно-инвариантного преобразования признаков (SIFT) - см. Lowe (2004).

Определитель Гессе [ править ]

Рассматривая масштабно-нормированный определитель гессиана, также называемый оператором Монжа – Ампера ,

где обозначает матрицу Гессе представления масштабного пространства, а затем обнаруживая максимумы масштабного пространства этого оператора, мы получаем другой простой дифференциальный детектор капель с автоматическим выбором масштаба, который также реагирует на седла (Lindeberg 1994, 1998).

.

Точки и масштабы больших двоичных объектов также определяются из операционных дифференциально-геометрических определений, которые приводят к дескрипторам больших двоичных объектов, которые ковариантны с перемещениями, поворотами и масштабами в области изображения. С точки зрения масштабного выбора, капли, определенные из экстремумов масштабного пространства детерминанта гессиана (DoH), также имеют немного лучшие свойства масштабного выбора при неевклидовых аффинных преобразованиях, чем более часто используемый лапласовский оператор (Lindeberg 1994, 1998, 2015) . [3] В упрощенной форме нормированный по масштабу определитель гессиана, вычисленный из вейвлетов Хаара, используется в качестве основного оператора точки интереса в дескрипторе SURF (Bay et al. 2006) для сопоставления изображений и распознавания объектов.

Подробный анализ свойств выбора детерминанта оператора Гессе и других детекторов точек интереса, близких к масштабному пространству, приведен в (Lindeberg 2013a) [1], показывающий, что определитель оператора Гессе имеет лучшие свойства масштабного выбора при преобразованиях аффинных изображений. чем оператор Лапласа. В (Lindeberg 2013b, 2015) [2] [3] показано, что определитель оператора Гессе работает значительно лучше, чем оператор Лапласа или его приближение разности гауссианов, а также лучше, чем определение Харриса или Харриса-Лапласа. операторы для сопоставления на основе изображений с использованием локальных дескрипторов изображений, подобных SIFT или SURF, что приводит к более высоким значениям эффективности и более низким оценкам с точностью до 1.

Гибридный лапласиан и определитель оператора Гессе (Гессе-Лапласа) [ править ]

Также был предложен гибридный оператор между лапласианом и детерминантом гессианских детекторов блобов, в котором пространственный выбор осуществляется детерминантом гессиана, а масштабный выбор выполняется с помощью нормированного по масштабу лапласиана (Mikolajczyk and Schmid 2004):

Этот оператор использовался для сопоставления изображений, распознавания объектов, а также для анализа текстур.

Аффинно-адаптированные дифференциальные детекторы блобов [ править ]

Дескрипторы blob, полученные от этих детекторов blob с автоматическим выбором масштаба, инвариантны к сдвигам, поворотам и равномерному изменению масштаба в пространственной области. Однако изображения, входящие в систему компьютерного зрения, также подвержены перспективным искажениям. Для получения дескрипторов больших двоичных объектов, более устойчивых к перспективным преобразованиям, естественным подходом является разработка детектора больших двоичных объектов, инвариантного к аффинным преобразованиям . На практике аффинно-инвариантные точки интереса можно получить, применяя адаптацию аффинной формы.в дескриптор большого двоичного объекта, где форма сглаживающего ядра итеративно деформируется, чтобы соответствовать локальной структуре изображения вокруг капли, или, что эквивалентно, локальный фрагмент изображения итеративно деформируется, в то время как форма сглаживающего ядра остается вращательно-симметричной (Lindeberg and Garding 1997; Baumberg 2000; Mikolajczyk and Schmid 2004, Lindeberg 2008). Таким образом, мы можем определить аффинно-адаптированные версии лапласиана / разности гауссовского оператора, определителя гессиана и оператора Гессе-Лапласа (см. Также Харрис-Аффинный и Гессен-Аффинный ).

Детекторы пространственно-временных блобов [ править ]

Определитель оператора Гессе был расширен на совместное пространство-время Виллемсом и др. [5] и Lindeberg, [6], что приводит к следующему нормированному по масштабу дифференциальному выражению:

В работе Willems et al. [5] использовалось более простое выражение, соответствующее и . В Lindeberg [6] было показано, что и подразумевает лучшие свойства масштабного выбора в том смысле, что выбранные масштабные уровни, полученные из пространственно-временного гауссовского блоба с пространственной протяженностью и временной протяженностью, будут идеально соответствовать пространственной протяженности и временной продолжительности blob, с выбором масштаба, выполняемым путем обнаружения пространственно-временных экстремумов масштабного пространства дифференциального выражения.

Оператор Лапласа был расширен Линдебергом на пространственно-временные видеоданные [6], что привело к следующим двум пространственно-временным операторам, которые также составляют модели рецептивных полей неотложных и запаздывающих нейронов в LGN:

Для первого оператора свойства выбора масштаба требуют использования и , если мы хотим, чтобы этот оператор принимал максимальное значение по пространственно-временным масштабам на пространственно-временном масштабном уровне, отражающем пространственную протяженность и временную продолжительность начинающегося гауссова блоба. Для второго оператора свойства выбора масштаба требуют использования и , если мы хотим, чтобы этот оператор принимал максимальное значение по пространственно-временным масштабам на пространственно-временном масштабном уровне, отражающем пространственную протяженность и временную продолжительность мигающего гауссовского пятна.

Капли серого уровня, деревья капель серого уровня и капли пространства масштаба [ править ]

Естественный подход к обнаружению капель - связать яркую (темную) каплю с каждым локальным максимумом (минимумом) в ландшафте интенсивности. Однако основная проблема такого подхода заключается в том, что локальные экстремумы очень чувствительны к шуму. Чтобы решить эту проблему, Линдеберг (1993, 1994) изучил проблему обнаружения локальных максимумов с протяженностью в нескольких масштабах в масштабном пространстве . Область с пространственной протяженностью, определяемой по аналогии с водоразделом, была связана с каждым локальным максимумом, а также с локальным контрастом, определяемым так называемой разграничивающей седловой точкой. Локальный экстремум с таким образом определенным экстремизмом назывался каплей серого уровня . Более того, если продолжить аналогию с водоразделом за ограничивающей седловой точкой, дерево капли серого уровнябыл определен для захвата вложенной топологической структуры наборов уровней в ландшафте интенсивности, инвариантным к аффинным деформациям в области изображения и монотонным преобразованиям интенсивности. Путем изучения того, как эти структуры развиваются с увеличением масштабов, было введено понятие капель в масштабе пространства . Помимо локального контраста и протяженности, эти сгустки пространства-масштаба также измеряли, насколько стабильны структуры изображения в пространстве-масштабе, измеряя их время жизни в пространстве-масштабе .

Было предложено, чтобы области интереса и дескрипторы шкалы, полученные таким образом, с соответствующими уровнями шкалы, определенными из шкал, на которых нормализованные меры силы пятна принимают свои максимумы по шкалам, могли использоваться для управления другой ранней визуальной обработкой. Был разработан ранний прототип упрощенных систем зрения, в которых такие области интереса и дескрипторы масштаба использовались для направления фокуса внимания активной системы зрения. Хотя конкретная техника, которая использовалась в этих прототипах, может быть существенно улучшена с учетом текущих знаний в области компьютерного зрения, общий общий подход все еще актуален, например, в том смысле, что в настоящее время используются локальные экстремумы по шкалам нормированного по масштабу лапласовского оператора. для предоставления информации о масштабе другим визуальным процессам.

Алгоритм обнаружения блобов на уровне серого на основе водораздела Линдеберга [ править ]

С целью обнаружения пятен на уровне серого (локальные экстремумы с протяженностью) по аналогии с водоразделом Линдеберг разработал алгоритм, основанный на предварительной сортировке пикселей, альтернативно соединенных областей, имеющих одинаковую интенсивность, в порядке убывания значений интенсивности. Затем были проведены сравнения между ближайшими соседями пикселей или связанных регионов.

Для простоты рассмотрим случай обнаружения ярких пятен уровня серого и пусть обозначение «более высокий сосед» означает «соседний пиксель, имеющий более высокое значение уровня серого». Тогда на любом этапе алгоритма (выполняемого в порядке убывания значений интенсивности) используются следующие правила классификации:

  1. Если у региона нет более высокого соседа, то это локальный максимум и будет начальным значением для большого двоичного объекта. Установите флаг, который позволяет капле расти.
  2. В противном случае, если у него есть хотя бы один более высокий сосед, который является фоном, тогда он не может быть частью какого-либо blob и должен быть фоном.
  3. В противном случае, если у него более одного старшего соседа и если эти более высокие соседи являются частями разных блобов, то он не может быть частью какого-либо большого двоичного объекта и должен быть фоном. Если кому-либо из более высоких соседей все еще разрешено расти, снимите их флаг, который позволяет им расти.
  4. В противном случае у него есть один или несколько более высоких соседей, которые все являются частями одного и того же большого двоичного объекта. Если этот большой двоичный объект все еще может расти, текущий регион должен быть включен как часть этого большого двоичного объекта. В противном случае область должна быть фоновой.

По сравнению с другими методами водораздела, затопление в этом алгоритме прекращается, когда уровень интенсивности падает ниже значения интенсивности так называемой ограничивающей седловой точки, связанной с локальным максимумом. Однако распространить этот подход на другие типы водосборных сооружений довольно просто. Например, переходя за пределы первой ограничивающей седловой точки, можно построить «дерево капли серого». Более того, метод обнаружения блобов на уровне серого был встроен в представление масштабного пространства и выполнялся на всех уровнях масштабирования, в результате получилось представление, называемое первичным эскизом масштабного пространства .

Этот алгоритм с его приложениями в компьютерном зрении более подробно описан в диссертации Линдеберга [7], а также в монографии по теории масштабного пространства [8], частично основанной на этой работе. Более ранние презентации этого алгоритма также можно найти в. [9] [10] Более подробные описания приложений обнаружения блобов на уровне серого и первичного эскиза в масштабном пространстве для компьютерного зрения и анализа медицинских изображений приведены в [11] [ 12] [13]

Максимально устойчивые экстремальные области (МСЭР) [ править ]

Matas et al. (2002) были заинтересованы в определении дескрипторов изображений, устойчивых к преобразованиям перспективы . Они изучили наборы уровней в ландшафте интенсивности и измерили, насколько они стабильны по измерению интенсивности. Основываясь на этой идее, они определили понятие максимально устойчивых экстремальных областей и показали, как эти дескрипторы изображения могут использоваться в качестве признаков изображения для стереосопоставления .

Между этим понятием и вышеупомянутым понятием дерева капли серого уровня существует тесная связь. Максимально стабильные экстремальные области можно рассматривать как конкретное подмножество дерева больших двоичных объектов уровня серого, явное для дальнейшей обработки.

См. Также [ править ]

  • Извлечение капли
  • Обнаружение углов
  • Адаптация аффинной формы
  • Масштабировать пространство
  • Обнаружение гребня
  • Обнаружение точки интереса
  • Обнаружение функций (компьютерное зрение)
  • Детектор аффинной области Харриса
  • Детектор аффинной области Гессе
  • PCBR

Ссылки [ править ]

  1. ^ a b Линдеберг, Тони (2013) «Свойства выбора масштаба для детекторов точек интереса с обобщенным масштабным пространством», Журнал математической визуализации и зрения, том 46, выпуск 2, страницы 177-210.
  2. ^ a b Линдеберг (2013) «Сопоставление изображений с использованием общих точек интереса в пространстве масштабов», Пространство масштабов и вариационные методы в компьютерном зрении, Примечания к лекциям Springer в компьютерных науках, том 7893, 2013 г., стр. 355-367.
  3. ^ a b c d Т. Линдеберг, «Сопоставление изображений с использованием общих точек интереса в масштабном пространстве», Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015.
  4. ^ Т. Линдеберг `` Масштабно-инвариантное преобразование признаков , Scholarpedia, 7 (5): 10491, 2012.
  5. ^ a b Герт Виллемс, Тинне Тайтелаарс и Люк ван Гул (2008). "Эффективный плотный и масштабно-инвариантный пространственно-временный детектор точек интереса". Европейская конференция по компьютерному зрению . Конспект лекций по информатике. 5303 . С. 650–663. DOI : 10.1007 / 978-3-540-88688-4_48 .
  6. ^ a b c Тони Линдеберг (2018). «Выбор пространственно-временного масштаба в видеоданных». Журнал математической визуализации и зрения . 60 (4). С. 525–562. DOI : 10.1007 / s10851-017-0766-9 .
  7. ^ Линдеберг, Т. (1991) Теория дискретного масштабного пространства и первичный эскиз масштабного пространства , докторская диссертация, Отдел численного анализа и вычислительной техники, Королевский технологический институт, S-100 44, Стокгольм, Швеция, май 1991 г. (ISSN) 1101-2250. ISRN KTH NA / P - 91/8 - SE) (Алгоритм обнаружения блобов на уровне серого описан в разделе 7.1)
  8. ^ Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении , Kluwer Academic Publishers, 1994 ISBN 0-7923-9418-6 
  9. ^ Т. Линдеберг и Ж.-О. Эклунд, «Обнаружение масштаба и выделение области из первичного эскиза в масштабном пространстве», в Proc. 3-я Международная конференция по компьютерному зрению (Осака, Япония), стр. 416-426, декабрь 1990 г. (См. Приложение A.1 для основных определений алгоритма обнаружения блобов на уровне серого на водоразделе).
  10. ^ Т. Линдеберг и Ж.-О. Эклунд, «О вычислении первичного эскиза в масштабном пространстве», Журнал визуальной коммуникации и представления изображений , вып. 2. С. 55--78, март 1991 г.
  11. ^ Линдеберг, Т .: Обнаружение заметных каплевидных структур изображений и их масштабов с помощью первичного эскиза в масштабном пространстве: метод фокусировки внимания, Международный журнал компьютерного зрения , 11 (3), 283-318, 1993 .
  12. ^ Линдеберг, Т., Лидберг, Пар и Роланд, П.Е .: «Анализ паттернов активации мозга с использованием первичного эскиза в трехмерном пространстве», Human Brain Mapping , том 7, № 3, стр 166-194, 1999.
  13. ^ Жан-Франсуа Манжен, Дени Ривьер, Оливье Кулон, Сирил Пупон, Арно Кашиа, Янн Коинтепас, Жан-Батист Полин, Дени Ле Бихан, Жан Режис, Димитри Пападопулос-Орфанос: «Координатный анализ изображений в сравнении со структурным анализом мозга. . Искусственный интеллект в медицине 30 (2): 177-197 (2004). Архивировано 21 июля 2011 г., в Wayback Machine.

Дальнейшее чтение [ править ]

  • Х. Бэй; Т. Туйтелаарс и Л. ван Гул (2006). «SURF: Ускоренные надежные функции» . Труды 9-й Европейской конференции по компьютерному зрению, Springer LNCS volume 3951, часть 1 . С. 404–417.
  • Л. Бретцнер и Т. Линдеберг (1998). «Отслеживание объектов с автоматическим выбором пространственных масштабов» (аннотация) . Компьютерное зрение и понимание изображений . 71 (3): 385–392. DOI : 10.1006 / cviu.1998.0650 .
  • Т. Линдеберг (1993). «Обнаружение заметных каплевидных структур изображений и их масштабов с помощью первичного эскиза в масштабном пространстве: метод фокусировки внимания» (страница с тезисами) . Международный журнал компьютерного зрения . 11 (3): 283–318. DOI : 10.1007 / BF01469346 . S2CID  11998035 .
  • Т. Линдеберг (1994). Теория масштабного пространства в компьютерном зрении . Springer. ISBN 978-0-7923-9418-1.
  • Т. Линдеберг (1998). «Обнаружение признаков с автоматическим выбором масштаба» (аннотация) . Международный журнал компьютерного зрения . 30 (2): 77–116. DOI : 10,1023 / A: 1008045108935 . S2CID  723210 .
  • Lindeberg, T .; Гардинг, Дж. (1997). «Адаптированное к форме сглаживание при оценке 3- {D} сигналов глубины от аффинных искажений локальной 2- {D} структуры» . Вычисления изображений и зрения . 15 (6): 415–434. DOI : 10.1016 / S0262-8856 (97) 01144-X .
  • Линдеберг, Т. (2008). «Масштаб-пространство» . In Wah, Бенджамин (ред.). Энциклопедия компьютерных наук и инженерии . IV . Джон Вили и сыновья. С. 2495–2504. DOI : 10.1002 / 9780470050118.ecse609 . ISBN 978-0-470-05011-8.
  • Д. Г. Лоу (2004). "Отличительные особенности изображения от масштабно-инвариантных ключевых точек" . Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX  10.1.1.73.2924 . DOI : 10,1023 / Б: VISI.0000029664.99615.94 . S2CID  221242327 .
  • Дж. Матас; О. Чум; М. Урбан и Т. Пайдла (2002). «Устойчивое стереозвучание с широкой базой из максимально стабильных экстремальных областей» (PDF) . Британская конференция по машинному зрению . С. 384–393.
  • К. Миколайчик; К. Шмид (2004). "Масштабные и аффинно-инвариантные детекторы точки интереса" (PDF) . Международный журнал компьютерного зрения . 60 (1): 63–86. DOI : 10,1023 / Б: VISI.0000027790.02288.f2 . S2CID  1704741 .