Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В математике структура тензор , также называют матрицей второго момента , является матрица получена из градиента о наличии функции . Он суммирует преобладающие направления градиента в указанной окрестности точки и степень согласованности этих направлений . Структурный тензор часто используется при обработке изображений и компьютерном зрении . [1] [2] [3]

Тензор 2D-структуры [ править ]

Непрерывная версия [ править ]

Для функции двух переменных p = ( x , y ) структурный тензор представляет собой матрицу 2 × 2

где и являются частные производные от по х и у ; интегралы простираются по плоскости ; и w - некоторая фиксированная «оконная функция», распределение по двум переменным. Обратите внимание, что сама матрица является функцией p = ( x , y ) .

Вышеупомянутая формула может быть также записана как , где - матричнозначная функция, определяемая как

Если градиент от рассматриваются как (один столбец) матрицы 2 × 1, где обозначает транспонирование операции, поворачивая вектор - строки в вектор - столбце, матрица может быть записана в качестве матрицы продукта , также известной в качестве внешнего продукта, или тензорное произведение. Заметим, однако, что структурный тензор не может быть разложен на множители таким образом, за исключением случаев, когда он является дельта-функцией Дирака .

Дискретная версия [ править ]

В обработке изображений и других подобных приложениях функция обычно задается как дискретный массив выборок , где p - пара целочисленных индексов. Тензор 2D-структуры в данном пикселе обычно принимается как дискретная сумма

Здесь индекс суммирования r охватывает конечный набор пар индексов («окно», обычно для некоторого m ), а w [ r ] - это фиксированный «вес окна», который зависит от r , так что сумма всех весов равна 1. Значения представляют собой частные производные, выбранные в пикселе p ; которое, например, можно оценить по формулам конечных разностей .

Формулу структурного тензора можно также записать как , где - матричнозначный массив такой, что

Интерпретация [ править ]

Важность тензора двумерной структуры проистекает из того, что собственные значения фактов (которые могут быть упорядочены таким образом ) и соответствующие собственные векторы суммируют распределение градиента в пределах окна, определяемого параметром с центром в . [1] [2] [3]

А именно, если , то (или ) - это направление, которое максимально совпадает с градиентом в окне.

В частности, если тогда градиент всегда кратен (положительному, отрицательному или нулю); это имеет место тогда и только тогда, когда в пределах окна изменяется вдоль направления, но постоянно вдоль . Это условие собственных значений также называется условием линейной симметрии, потому что тогда изокривые состоят из параллельных линий, т.е. существует одномерная функция, которая может генерировать двумерную функцию как для некоторого постоянного вектора, так и координат .

Если , с другой стороны, градиент в окне не имеет преобладающего направления; что происходит, например, когда изображение имеет вращательную симметрию в этом окне. Это условие собственных значений также называется сбалансированным телом или условием направленного равновесия, потому что оно выполняется, когда все направления градиента в окне одинаково часты / вероятны.

Кроме того, условие возникает тогда и только тогда, когда функция в пределах константы ( ) .

В более общем смысле , величина , для к = 1 или к = 2, является -weighted среднем, в окрестностях р , из квадрата производной по направлению от наряду . Относительное несоответствие между двумя собственными значениями является показателем степени анизотропии градиента в окне, а именно, насколько сильно он смещен в определенном направлении (и его противоположном). [4] [5] Этот атрибут можно количественно оценить с помощью когерентности , определяемой как

если . Это количество равно 1, когда градиент полностью выровнен, и 0, когда у него нет предпочтительного направления. Формула не определена даже в пределе , когда изображение в окне постоянно ( ). Некоторые авторы в этом случае определяют его как 0.

Обратите внимание, что среднее значение градиента внутри окна не является хорошим индикатором анизотропии. Выровненные, но противоположно ориентированные векторы градиента будут сокращаться в этом среднем, тогда как в тензоре структуры они правильно складываются. [6] Это причина того, почему используется при усреднении структурного тензора для оптимизации направления вместо .

Увеличивая эффективный радиус оконной функции (то есть увеличивая ее дисперсию), можно сделать тензор структуры более устойчивым к шуму за счет уменьшения пространственного разрешения. [5] [7] Формальная основа для этого свойства описана более подробно ниже, где показано, что многомасштабная формулировка тензора структуры, называемая тензором многомасштабной структуры , составляет истинный многомасштабный представление направленных данных при вариациях пространственной протяженности оконной функции .

Сложная версия [ править ]

Интерпретация и реализация тензора двумерной структуры становится особенно доступной с использованием комплексных чисел. [2] Структурный тензор состоит из трех действительных чисел.

где , и в которых интегралы можно заменить суммированием для дискретного представления. Используя соотношение Парсеваля, ясно, что три действительных числа являются моментами второго порядка спектра мощности . Следующий комплексный момент второго порядка спектра мощности может быть записан как

где и - угол направления наиболее значимого собственного вектора структурного тензора, тогда как и - наиболее и наименее значимые собственные значения. Из этого следует, что содержит как определенностьи оптимальное направление в представлении двойного угла, поскольку это комплексное число, состоящее из двух действительных чисел. Отсюда также следует, что если градиент представлен как комплексное число и преобразован в квадрат (т. Е. Углы аргумента сложного градиента удваиваются), то усреднение действует как оптимизатор в сопоставленной области, поскольку оно напрямую обеспечивает как оптимальные, так и оптимальные значения. направление (в двойном угловом представлении) и связанная с этим достоверность. Комплексное число представляет, таким образом, насколько линейная структура (линейная симметрия) присутствует в изображении , а комплексное число получается непосредственно путем усреднения градиента в его (комплексном) представлении с двумя углами без явного вычисления собственных значений и собственных векторов.

Точно так же следующий комплексный момент второго порядка спектра мощности , который всегда реален, потому что он реален,

может быть получено с и быть собственные значения , как и раньше. Обратите внимание, что на этот раз величина комплексного градиента возведена в квадрат (что всегда реально).

Однако разложение структурного тензора по его собственным векторам дает его компоненты тензора в виде

где - единичная матрица в 2D, потому что два собственных вектора всегда ортогональны (и их сумма равна единице). Первый член в последнем выражении разложения представляет компонент линейной симметрии тензора структуры, содержащий всю информацию о направлении (в виде матрицы ранга 1), тогда как второй член представляет компонент сбалансированного тела тензора, в котором отсутствует какая-либо информация о направлении. направленная информация (содержащая единичную матрицу ). Знать, сколько информации о направлении содержится в этом поле, можно сравнить с проверкой того, насколько велик он по сравнению с .

Очевидно, является комплексным эквивалентом первого члена в тензорном разложении, тогда как

эквивалент второго члена. Таким образом, два скаляра, состоящие из трех действительных чисел,

где - (комплексный) градиентный фильтр, а - свертка, составляют комплексное представление тензора 2D структуры. Как обсуждается здесь и в других местах, определяется локальное изображение, которое обычно является гауссовым (с определенной дисперсией, определяющей внешний масштаб), и является параметром (внутренним масштабом), определяющим эффективный частотный диапазон, в котором должна оцениваться ориентация .

Элегантность сложного представления проистекает из того, что две компоненты структурного тензора могут быть получены как средние значения и независимо. В свою очередь, это означает, что и может использоваться в представлении масштабного пространства для описания свидетельства наличия уникальной ориентации и свидетельства альтернативной гипотезы, наличия нескольких сбалансированных ориентаций, без вычисления собственных векторов и собственных значений. Функционал, такой как возведение в квадрат комплексных чисел, до сих пор не был продемонстрирован для структурных тензоров с размерностями выше двух. В Bigun 91 было выдвинуто надлежащее обоснование того, что это потому, что комплексные числа являются коммутативными алгебрами, тогда как кватернионы, возможные кандидаты для построения такого функционала, составляют некоммутативную алгебру.[8]

Сложное представление структурного тензора часто используется в анализе отпечатков пальцев для получения карт направлений, содержащих достоверные данные, которые, в свою очередь, используются для их улучшения, для определения местоположения глобальных (ядра и дельты) и локальных (мелких) сингулярностей, а также автоматически оценивать качество отпечатков пальцев.

Тензор трехмерной структуры [ править ]

Определение [ править ]

Совершенно аналогично можно определить структурный тензор и для функции трех переменных p = ( x , y , z ). А именно, в непрерывном варианте мы имеем , где

где - три частные производные от , а интеграл принимает значения .

В дискретном варианте , где

и сумма пробегает конечный набор трехмерных индексов, обычно для некоторого m .

Интерпретация [ править ]

Как и в трехмерном случае, собственные значения из , и соответствующих собственных векторов , суммировать распределение градиентных направлений в пределах окрестностей р , определяемых окном . Эту информацию можно представить в виде эллипсоида , полуоси которого равны собственным значениям и направлены вдоль соответствующих им собственных векторов. [9]

Эллипсоидальное представление тензора трехмерной структуры.

В частности, если эллипсоид вытянут вдоль одной оси, как сигара (то есть, если намного больше , чем оба , и ), то это означает , что градиент в окне преимущественно выровнены с направлением , так что изоповерхности из , как правило , быть плоским и перпендикулярно этому вектору. Такая ситуация возникает, например, когда p лежит на тонком пластинчатом элементе или на гладкой границе между двумя областями с контрастирующими значениями.

Если эллипсоид сплющен только в одном направлении, как блин (то есть, если он намного меньше, чем оба и ), это означает, что направления градиента растянуты, но перпендикулярны ; так что изоповерхности имеют тенденцию быть похожими на трубы, параллельные этому вектору. Такая ситуация возникает, например, когда p лежит на тонком линейчатом элементе или на остром углу границы между двумя областями с контрастирующими значениями.

Наконец, если эллипсоид примерно сферический (то есть, если ), это означает, что направления градиента в окне более или менее равномерно распределены без явного предпочтения; так что функция в этой окрестности в основном изотропна. Это происходит, например, когда функция имеет сферическую симметрию в окрестности p . В частности, если эллипсоид вырождается в точку (то есть, если три собственных значения равны нулю), это означает, что он постоянен (имеет нулевой градиент) в пределах окна.

Тензор многомасштабной структуры [ править ]

Структурный тензор - важный инструмент в анализе масштабного пространства . Многомасштабный структурный тензор (или многомасштабный второй момент матрица ) функции в отличии от других однопараметрического масштаба пространства Характеристики дескриптор изображения , которое определенно над двух параметрами масштаба. Один параметр масштаба, называемый локальным масштабом , необходим для определения величины предварительного сглаживания при вычислении градиента изображения . Другой параметр масштаба, называемый масштабом интеграции , необходим для определения пространственной протяженности оконной функции. который определяет веса для области в пространстве, в которой накапливаются компоненты внешнего продукта градиента .

Точнее, предположим, что это сигнал с действительным знаком, определенный в . Для любого локального масштаба пусть многомасштабное представление этого сигнала задается как где представляет ядро ​​предварительного сглаживания. Кроме того, пусть обозначает градиент представления масштабного пространства . Тогда многомасштабная матрица тензора структуры / второго момента определяется как [7] [10] [11]

Концептуально может возникнуть вопрос, достаточно ли использовать какие-либо самоподобные семейства сглаживающих функций и . Однако, если кто-то наивно применит, например, блочный фильтр, могут легко возникнуть нежелательные артефакты. Если кто-то хочет, чтобы тензор многомасштабной структуры вел себя хорошо как в увеличивающихся локальных масштабах, так и в увеличивающихся масштабах интегрирования , то можно показать, что и функция сглаживания, и оконная функция должны быть гауссовскими. [7] Условия, определяющие эту уникальность, аналогичны аксиомам масштабного пространства , которые используются для вывода уникальности гауссова ядра для регулярного гауссовского масштабного пространства интенсивностей изображений.

Существуют различные способы обработки двухпараметрических вариаций масштаба в этом семействе дескрипторов изображений. Если мы сохраним параметр локального масштаба фиксированным и применим все более расширенные версии оконной функции, увеличивая только параметр масштаба интегрирования , то мы получим истинное формальное пространственное представление данных направления, вычисленных в данном локальном масштабе . [7] Если мы объединим локальный масштаб и масштаб интегрирования с помощью шкалы относительного интегрирования , так что тогда для любого фиксированного значения мы получим уменьшенную автомодельную однопараметрическую вариацию, которая часто используется для упрощения вычислительных алгоритмов, например в обнаружении угла , обнаружение точек интереса , анализ текстуры и сопоставление изображений . Изменяя относительный масштаб интегрирования в таком автомодельном масштабе, мы получаем другой альтернативный способ параметризации многомасштабного характера направленных данных, полученных путем увеличения масштаба интегрирования.

Концептуально аналогичное построение может быть выполнено для дискретных сигналов, при этом интеграл свертки заменяется суммой свертки, а непрерывное гауссово ядро заменяется дискретным гауссовым ядром :

При квантовании параметров шкалы и в реальной реализации обычно используется конечная геометрическая прогрессия , где i находится в диапазоне от 0 до некоторого максимального индекса шкалы m . Таким образом, уровни дискретного масштаба будут иметь определенное сходство с пирамидой изображений , хотя пространственная субдискретизация не обязательно может использоваться для сохранения более точных данных для последующих этапов обработки.

Приложения [ править ]

Собственные структуры тензор играет существенную роль во многих алгоритмах обработки изображений, для таких проблем , как обнаружение угла , обнаружение точки процентной и отслеживания особенности . [9] [12] [13] [14] [15] [16] [17] Тензор структуры также играет центральную роль в алгоритме оптического потока Лукаса-Канаде и в его расширениях для оценки адаптации аффинной формы ; [10] где величина является показателем надежности вычисленного результата. Тензор использовался для анализа масштабного пространства [7]оценка локальной ориентации поверхности по сигналам монокуляра или бинокля, [11] нелинейное улучшение отпечатков пальцев , [18] обработка изображений на основе диффузии , [19] [20] [21] [22] и ряд других проблем обработки изображений. Тензор структуры также может применяться в геологии для фильтрации сейсмических данных. [23]

Обработка пространственно-временных видеоданных с помощью структурного тензора [ править ]

Тензор трехмерной структуры использовался для анализа трехмерных видеоданных (рассматриваемых как функция от x , y и времени t ). [4] Если один в этом контексте нацелен на дескрипторы изображения, которые инвариантны относительно преобразований Галилея, чтобы сделать возможным сравнение измерений изображения, которые были получены при вариациях априори неизвестных скоростей изображения

,

однако с вычислительной точки зрения предпочтительнее параметризовать компоненты в матрице структурного тензора / второго момента, используя понятие диагонализации Галилея [24]

где обозначает преобразование Галилея пространства-времени и двумерное вращение в пространственной области по сравнению с вышеупомянутым использованием собственных значений тензора трехмерной структуры, что соответствует разложению на собственные значения и (нефизическому) трехмерному вращению пространства-времени

.

Однако, чтобы получить истинную галилееву инвариантность, также необходимо адаптировать форму пространственно-временной оконной функции [24] [25], соответствующую переносу аффинной адаптации формы [10] из пространственных данных в пространственно-временные данные изображения. В сочетании с локальными дескрипторами пространственно-временных гистограмм [26] эти концепции вместе позволяют Галилееву инвариантное распознавание пространственно-временных событий. [27]

См. Также [ править ]

  • Тензор
  • Тензорный оператор
  • Производная по направлению
  • Гауссовский
  • Обнаружение углов
  • Обнаружение края
  • Метод Лукаса-Канаде
  • Адаптация аффинной формы
  • Обобщенный структурный тензор

Ссылки [ править ]

  1. ^ a b Дж. Бигун и Г. Гранлунд (1986), Обнаружение оптимальной ориентации линейной симметрии . Tech. Отчет LiTH-ISY-I-0828, Лаборатория компьютерного зрения, Университет Линчёпинга, Швеция, 1986; Тезисный доклад, Линчепинг, исследования в области науки и техники № 85, 1986.
  2. ^ a b c Дж. Бигун и Г. Гранлунд (1987). «Обнаружение оптимальной ориентации линейной симметрии». Первый внутр. Конф. по компьютерному зрению, ICCV, (Лондон) . Пискатауэй: издательство IEEE Computer Society Press, Пискатауэй. С. 433–438.
  3. ^ а б Х. Кнутссон (1989). «Представление локальной структуры с помощью тензоров». Материалы 6-й Скандинавской конф. по анализу изображений . Оулу: Университет Оулу. С. 244–251.
  4. ^ а б Б. Джан (1993). Пространственно-временная обработка изображений: теория и научные приложения . 751 . Берлин: Springer-Verlag.
  5. ^ a b Г. Медиони, М. Ли и К. Тан (март 2000 г.). Вычислительная платформа для извлечения признаков и сегментации . Elsevier Science.
  6. ^ Т. Брокс, Дж Weickert, Б. Burgeth и П. Mrazek (2004). «Тензор нелинейных структур» (113): 1–32. Cite journal requires |journal= (help)CS1 maint: multiple names: authors list (link)
  7. ^ a b c d e Т. Линдеберг (1993), Теория масштабного пространства в компьютерном зрении . Kluwer Academic Publishers, (см. Разделы 14.4.1 и 14.2.3 на страницах 359–360 и 355–356 для подробных утверждений о том, как многомасштабный тензор матрицы / структуры второго момента определяет истинное и однозначно определенное многомасштабное представление направленные данные).
  8. ^ Дж. Бигун; Г. Гранлунд и Дж. Виклунд (1991). «Оценка многомерной ориентации с приложениями к текстурному анализу и оптическому потоку». IEEE Transactions по анализу шаблонов и машинному анализу . 13 (8): 775–790. DOI : 10.1109 / 34.85668 .
  9. ^ а б М. Николеску и Г. Медиони (2003). «Сегментация движения с точными границами - подход тензорного голосования». Proc. IEEE Computer Vision и распознавание образов . 1 . С. 382–389.
  10. ^ а б в Т. Линдеберг и Дж. Гардинг (1997). «Адаптированное к форме сглаживание при оценке трехмерных сигналов глубины от аффинных искажений локальной двумерной структуры» . Вычисления изображений и зрения . 15 (6): 415–434. DOI : 10.1016 / S0262-8856 (97) 01144-X .
  11. ^ a b Дж. Гардинг и Т. Линдеберг (1996). «Прямое вычисление сигналов формы с использованием масштабно адаптированных пространственных производных операторов , Международный журнал компьютерного зрения, том 17, выпуск 2, страницы 163–191.
  12. ^ В. Форстнер (1986). «Алгоритм соответствия на основе признаков для обработки изображений». 26 : 150–166. Cite journal requires |journal= (help)
  13. Перейти ↑ C. Harris & M. Stephens (1988). «Комбинированный детектор угла и края». Proc. 4-й конференции ALVEY Vision . С. 147–151.
  14. ^ К. Рор (1997). «О трехмерных дифференциальных операторах для обнаружения точечных ориентиров». 15 (3): 219–233. Cite journal requires |journal= (help)
  15. ^ I. Лаптев & T. Линдеберга (2003). «Пространственно-временные точки интереса» . Международная конференция по компьютерному зрению ICCV'03 . Я . С. 432–439. DOI : 10.1109 / ICCV.2003.1238378 .
  16. ^ Б. Триггс (2004). «Обнаружение ключевых точек со стабильным положением, ориентацией и масштабом при изменении освещения». Proc. Европейская конференция по компьютерному зрению . 4 . С. 100–113.
  17. ^ С. Кинни, М. Б. Zuliani & Manjunath (2005). «Аксиоматический подход к обнаружению углов». Proc. IEEE Computer Vision и распознавание образов . С. 191–197.
  18. ^ А. Альманса и Т. Линдеберг (2000), Улучшение изображений отпечатков пальцев с помощью операторов масштабного пространства, адаптированных к форме . IEEE Transactions по обработке изображений, том 9, номер 12, страницы 2027–2042.
  19. ^ J. Weickert (1998), Анизотропная диффузия в обработке изображений, Teuber Verlag, Штутгарт.
  20. ^ D. Tschumperle и Deriche (сентябрь 2002). «Распространение PDE на векторных изображениях»: 16–25. Cite journal requires |journal= (help)
  21. ^ С. Arseneau & J. Cooperstock (сентябрь 2006). «Асимметричная диффузионная структура для анализа соединений». Британская конференция по машинному зрению . 2 . С. 689–698.
  22. ^ С. Арсено и Дж. Куперсток (ноябрь 2006 г.). «Улучшенное представление переходов через асимметричную тензорную диффузию». Международный симпозиум по визуальным вычислениям .
  23. ^ Ян, Шуай; Чен, Аньцин; Чен, Хонгде (2017-05-25). «Фильтрация сейсмических данных с использованием алгоритма нелокальных средств на основе структурного тензора» . Откройте Геонауки . 9 (1): 151–160. Bibcode : 2017OGeo .... 9 ... 13Y . DOI : 10,1515 / гео-2017-0013 . ISSN 2391-5447 . S2CID 134392619 .  
  24. ^ а б Т. Линдеберг; А. Акбарзаде и И. Лаптев (август 2004 г.). «Операторы пространственно-временного интереса с поправкой на Галилея» . Международная конференция по распознаванию образов ICPR'04 . Я . С. 57–62. DOI : 10.1109 / ICPR.2004.1334004 .
  25. I. Laptev & T. Lindeberg (август 2004 г.). «Скоростная адаптация пространственно-временных точек интереса» . Международная конференция по распознаванию образов ICPR'04 . Я . С. 52–56. DOI : 10.1109 / ICPR.2004.971 .
  26. I. Laptev & T. Lindeberg (май 2004 г.). «Локальные дескрипторы для пространственно-временного распознавания» . ECCV'04 Семинар по пространственной когерентности для визуального анализа движения (Прага, Чешская Республика) Конспект лекций Springer по информатике . 3667 . С. 91–103. DOI : 10.1007 / 11676959 .
  27. И. Лаптев; Б. Капуто; К. Шульдт и Т. Линдеберг (2007). «Локальные адаптированные к скорости движения для пространственно-временного распознавания» . Компьютерное зрение и понимание изображений . 108 . С. 207–229. DOI : 10.1016 / j.cviu.2006.11.023 .

Ресурсы [ править ]

  • Скачать исходный код MATLAB
  • Учебное пособие по тензорной структуре (оригинал)