Реализация масштабного пространства

В областях компьютерного зрения , анализа изображений и обработки сигналов понятие масштабно-пространственного представления используется для обработки данных измерений в нескольких масштабах и, в частности, для улучшения или подавления функций изображения в разных диапазонах масштабов (см. Статью о масштабном пространстве ) . Особый тип представления масштабного пространства обеспечивается гауссовым масштабным пространством, где данные изображения в N измерениях подвергаются сглаживанию с помощью гауссовой свертки.. Большая часть теории для пространства с гауссовым масштабом имеет дело с непрерывными изображениями, тогда как при реализации этой теории придется столкнуться с тем фактом, что большинство данных измерений являются дискретными. Следовательно, возникает теоретическая проблема относительно того, как дискретизировать непрерывную теорию, сохраняя или хорошо аппроксимируя желаемые теоретические свойства, которые приводят к выбору гауссова ядра (см. Статью об аксиомах масштабного пространства ). В этой статье описаны основные подходы для этого, которые были разработаны в литературе.

Масштабировать пространство
Аксиомы масштабного пространства
Реализация масштабного пространства
Обнаружение функции
Обнаружение края
Обнаружение BLOB-объектов
Обнаружение углов
Обнаружение гребня
Обнаружение точки интереса
Выбор шкалы
Адаптация аффинной формы
Сегментация масштабного пространства
v т е

Постановка задачи

Гауссово масштаб пространство представление из двух величин N непрерывного сигнала n - мерных,

{\ displaystyle f_ {C} \ left (x_ {1}, \ cdots, x_ {N}, t \ right),}

получается сверткой f _C с N -мерным гауссовским ядром :

{\ displaystyle g_ {N} \ left (x_ {1}, \ cdots, x_ {N}, t \ right).}

Другими словами:

{\ displaystyle L \ left (x_ {1}, \ cdots, x_ {N}, t \ right) = \ int _ {u_ {1} = - \ infty} ^ {\ infty} \ cdots \ int _ {u_ {N} = - \ infty} ^ {\ infty} f_ {C} \ left (x_ {1} -u_ {1}, \ cdots, x_ {N} -u_ {N}, t \ right) \ cdot g_ {N} \ left (u_ {1}, \ cdots, u_ {N}, t \ right) \, du_ {1} \ cdots du_ {N}.}

Однако для реализации это определение непрактично, поскольку оно непрерывно. При применении концепции масштабного пространства к дискретному сигналу f _D можно использовать разные подходы. Эта статья представляет собой краткое изложение некоторых из наиболее часто используемых методов.

Отделимость

Используя свойство отделимости гауссова ядра

{\ displaystyle g_ {N} \ left (x_ {1}, \ dots, x_ {N}, t \ right) = G \ left (x_ {1}, t \ right) \ cdots G \ left (x_ {N }, t \ right)}

N - мерный сверток операцию можно разложить на множество разъемных шагов сглаживания с одномерным гауссово ядром G вдоль каждой размерности

{\ Displaystyle L (x_ {1}, \ cdots, x_ {N}, t) = \ int _ {u_ {1} = - \ infty} ^ {\ infty} \ cdots \ int _ {u_ {N} = - \ infty} ^ {\ infty} f_ {C} (x_ {1} -u_ {1}, \ cdots, x_ {N} -u_ {N}, t) G (u_ {1}, t) \, du_ {1} \ cdots G (u_ {N}, t) \, du_ {N},}

где

{\ displaystyle G (x, t) = {\ frac {1} {\ sqrt {2 \ pi t}}} e ^ {- {\ frac {x ^ {2}} {2t}}}}

и стандартное отклонение гауссова σ связано с параметром масштаба t согласно t = σ ² .

Во всем дальнейшем будет предполагаться разделимость, даже если ядро не совсем гауссово, поскольку разделение измерений является наиболее практичным способом реализации многомерного сглаживания, особенно в больших масштабах. Поэтому остальная часть статьи посвящена одномерному случаю.

Выбранное ядро Гаусса

При реализации шага одномерного сглаживания на практике, предположительно, самый простой подход состоит в свертке дискретного сигнала f _D с дискретизированным гауссовым ядром :

{\ displaystyle L (x, t) = \ sum _ {n = - \ infty} ^ {\ infty} f (xn) \, G (n, t)}

где

{\ displaystyle G (n, t) = {\ frac {1} {\ sqrt {2 \ pi t}}} e ^ {- {\ frac {n ^ {2}} {2t}}}}

(с t = σ ² ), который, в свою очередь, обрезается на концах, чтобы получить фильтр с конечной импульсной характеристикой

{\ Displaystyle L (x, t) = \ сумма _ {n = -M} ^ {M} f (xn) \, G (n, t)}

для M, выбранного достаточно большим (см. функцию ошибок ), таким, что

{\ displaystyle 2 \ int _ {M} ^ {\ infty} G (u, t) \, du = 2 \ int _ {\ frac {M} {\ sqrt {t}}} ^ {\ infty} G ( v, 1) \, dv <\ varepsilon.}

Обычный выбор - установить M равным C, умноженному на стандартное отклонение гауссова ядра.

{\ displaystyle M = C \ sigma + 1 = C {\ sqrt {t}} + 1}

где C часто выбирают между 3 и 6.

Однако использование дискретизированного гауссовского ядра может привести к проблемам реализации, в частности, при вычислении производных более высокого порядка в более мелких масштабах путем применения дискретизированных производных гауссовых ядер. Когда точность и надежность являются основными критериями проектирования, следует рассмотреть альтернативные подходы к реализации.

Для малых значений ε (от 10 ⁻⁶ до 10 ⁻⁸ ) ошибки, вносимые усечением гауссиана, обычно незначительны. Однако для больших значений ε есть много лучших альтернатив прямоугольной оконной функции . Например, для заданного числа точек в окне Хэмминга , Blackman окна или окна Кайзера будет делать меньше повреждений спектральных и других свойств гауссовой , чем простое усечение будет. Несмотря на это, поскольку гауссово ядро быстро уменьшается на хвостах, основная рекомендация по-прежнему состоит в том, чтобы использовать достаточно малое значение ε, чтобы эффекты усечения больше не были важны.

Дискретное гауссово ядро

Идеальное дискретное ядро Гаусса (сплошное) по сравнению с обычным дискретным гауссовым ядром (пунктир) для масштабов t = [0,5, 1, 2, 4]

Более точный подход состоит в свертке исходного сигнала с дискретным гауссовым ядром T ( n , t ) ^[1]^[2]^[3]

{\ Displaystyle L (x, t) = \ сумма _ {n = - \ infty} ^ {\ infty} f (xn) \, T (n, t)}

где

{\ Displaystyle Т (п, т) = е ^ {- т} I_ {п} (т)}

а также ${\ Displaystyle I_ {п} (т)}$ обозначает модифицированные функции Бесселя целого порядка n . Это дискретный аналог непрерывного гауссиана в том смысле, что он является решением дискретного уравнения диффузии (дискретное пространство, непрерывное время), точно так же, как непрерывный гауссиан является решением уравнения непрерывной диффузии. ^[1]^[2]^[4]

Этот фильтр может быть усечен в пространственной области, как для дискретизированного гауссовского

{\ Displaystyle L (х, t) = \ сумма _ {n = -M} ^ {M} f (xn) \, T (n, t)}

или может быть реализован в области Фурье с использованием выражения в замкнутой форме для дискретного преобразования Фурье :

{\ displaystyle {\ widehat {T}} (\ theta, t) = \ sum _ {n = - \ infty} ^ {\ infty} T (n, t) \, e ^ {- i \ theta n} = e ^ {t (\ cos \ theta -1)}.}

При таком подходе частотной области свойства масштабного пространства передаются точно в дискретную область или с отличным приближением с использованием периодического расширения и подходящего длинного дискретного преобразования Фурье для аппроксимации дискретного преобразования Фурье сглаживаемого сигнала. Более того, приближения производных высшего порядка могут быть вычислены прямым способом (и с сохранением свойств масштабного пространства) путем применения операторов центральной разности с малой опорой к представлению дискретного масштабного пространства . ^[5]

Как и в случае с дискретизированным гауссианом, простое усечение бесконечной импульсной характеристики в большинстве случаев будет достаточным приближением для малых значений ε, в то время как для больших значений ε лучше использовать либо разложение дискретного гауссиана на каскад обобщенные биномиальные фильтры или, альтернативно, построить конечное приближенное ядро путем умножения на оконную функцию . Если ε было выбрано слишком большим, так что эффекты ошибки усечения начинают проявляться (например, как ложные экстремумы или ложные ответы на операторы производной более высокого порядка), то можно уменьшить значение ε так, чтобы большее конечное ядро используется с вырезом там, где опора очень мала, или для использования сужающегося окна.

Рекурсивные фильтры

Ядра масштабного пространства. Идеальный дискретный гауссиан на основе функций Бесселя (красный) и двухполюсные пары прямого / обратного рекурсивного сглаживания (синий) с полюсами, как описано в тексте. Вверху показаны отдельные ядра, а внизу - их совокупная свертка друг с другом; t = [0,5, 1, 2, 4].

Поскольку вычислительная эффективность часто важна, рекурсивные фильтры низкого порядка часто используются для сглаживания масштабного пространства. Например, Янг и ван Влит ^[6] используют рекурсивный фильтр третьего порядка с одним действительным полюсом и парой комплексных полюсов, применяемый в прямом и обратном направлении, чтобы сделать симметричное приближение шестого порядка к гауссиану с низкой вычислительной сложностью для любого сглаживания. шкала.

Ослабив некоторые аксиомы, Линдеберг ^[1] пришел к выводу, что хорошими сглаживающими фильтрами будут «нормализованные частотные последовательности Полиа », семейство дискретных ядер, которое включает все фильтры с действительными полюсами в 0 < Z <1 и / или Z > 1. , а также с действительными нулями при Z <0. Для симметрии, которая приводит к приблизительной однородности направления, эти фильтры должны быть дополнительно ограничены парами полюсов и нулей, которые приводят к фильтрам с нулевой фазой.

Чтобы согласовать кривизну передаточной функции на нулевой частоте дискретного гауссиана, что обеспечивает приближенное полугрупповое свойство аддитивного t , два полюса на

{\ displaystyle Z = 1 + {\ frac {2} {t}} - {\ sqrt {\ left (1 + {\ frac {2} {t}} \ right) ^ {2} -1}}}

может применяться вперед и назад для симметрии и устойчивости. Этот фильтр является простейшей реализацией ядра нормализованной частотной последовательности Полиа, которое работает для любого масштаба сглаживания, но он не является таким превосходным приближением к гауссову, как фильтр Янга и Ван Влиета, который не является нормализованной частотной последовательностью Полиа из-за своей сложной полюса.

Передаточная функция H ₁ рекурсивного фильтра симметричной пары полюсов тесно связана с дискретным преобразованием Фурье дискретного гауссовского ядра через аппроксимацию первого порядка экспоненты:

{\ displaystyle {\ widehat {T}} (\ theta, t) = {\ frac {1} {e ^ {t (1- \ cos \ theta)}}} \ приблизительно {\ frac {1} {1+ t (1- \ cos \ theta)}} = H_ {1} (\ theta, t),}

где параметр t здесь связан с устойчивым положением полюса Z = p через:

{\ displaystyle t = {\ frac {2p} {(1-p) ^ {2}}}.}

Кроме того, такие фильтры с N парами полюсов, такие как две пары полюсов, показанные в этом разделе, являются еще лучшим приближением к экспоненте:

{\ displaystyle {\ frac {1} {\ left (1 + {\ frac {t} {N}} (1- \ cos \ theta) \ right) ^ {N}}} = H_ {N} (\ theta , t),}

где стабильные положения полюсов регулируются путем решения:

{\ displaystyle {\ frac {t} {N}} = {\ frac {2p} {(1-p) ^ {2}}}.}

Импульсные характеристики этих фильтров не очень близки к гауссовым, если не используется более двух пар полюсов. Однако даже с одной или двумя парами полюсов на шкалу сигнал, последовательно сглаженный с увеличением масштабов, будет очень близок к сглаженному по Гауссу сигналу. Если используется слишком мало пар полюсов, свойство полугруппы аппроксимируется плохо.

Эти фильтры по-прежнему удовлетворяют следующие аксиомы масштабного пространства :

линейность
инвариантность сдвига (целочисленные сдвиги)
отсутствие локальных экстремумов (нулевых переходов) в одном измерении
отсутствие усиления локальных экстремумов в любом количестве измерений
позитивность
нормализация

Следующие условия выполняются лишь приблизительно, причем приближение лучше для большего числа пар полюсов:

существование инфинитезимального генератора A (бесконечно малый генератор дискретного гауссиана или приближающий его фильтр, приблизительно отображает рекурсивный отклик фильтра на один из бесконечно больших t )
структура полугруппы с соответствующим свойством каскадного сглаживания (это свойство аппроксимируется рассмотрением ядер как эквивалентных, когда они имеют одинаковое значение t , даже если они не совсем равны)
вращательная симметрия
масштабная инвариантность

Этот метод рекурсивного фильтра и его варианты для вычисления как гауссовского сглаживания, так и гауссовских производных были описаны несколькими авторами. ^[6]^[7]^[8]^[9] Тан и др. проанализировали и сравнили некоторые из этих подходов и указали, что фильтры Янга и Ван Влита представляют собой каскад (умножение) прямых и обратных фильтров, в то время как Deriche и Jin et al. фильтры - это сумма прямых и обратных фильтров. ^[10]

При малых масштабах подход рекурсивной фильтрации, а также другие подходы с разделением не гарантируют наилучшего приближения к вращательной симметрии, поэтому в качестве альтернативы можно рассматривать неразделимые реализации для 2D-изображений.

При одновременном вычислении нескольких производных в N-струе дискретное сглаживание в масштабном пространстве с дискретным аналогом гауссова ядра или с приближением рекурсивного фильтра, за которым следуют операторы малых опорных разностей, может быть как быстрее, так и точнее, чем вычисление рекурсивных приближений. каждого производного оператора.

Сглаживание с конечной импульсной характеристикой (FIR)

Для небольших масштабов КИХ-фильтр низкого порядка может быть лучшим сглаживающим фильтром, чем рекурсивный фильтр. Симметричное 3-ядро [ t / 2, 1- t , t / 2] для t ≤ 0,5 сглаживается до масштаба t, используя пару действительных нулей при Z <0, и приближается к дискретному гауссову в пределе малых т . Фактически, при бесконечно малом t либо этот фильтр с двумя нулями, либо двухполюсный фильтр с полюсами при Z = t / 2 и Z = 2 / t может использоваться в качестве бесконечно малого генератора для дискретных гауссовских ядер, описанных выше.

Нули КИХ-фильтра могут быть объединены с полюсами рекурсивного фильтра для создания общего высококачественного сглаживающего фильтра. Например, если процесс сглаживания заключается в том, чтобы всегда применять биквадратный (двухполюсный, два нуля) фильтр вперед, а затем назад к каждой строке данных (и к каждому столбцу в 2D случае), полюса и нули могут выполнять часть сглаживания. Нули ограничиваются t = 0,5 на пару (нули при Z = –1), поэтому для больших масштабов полюса делают большую часть работы. В более мелких масштабах комбинация дает отличное приближение к дискретному гауссову, если полюса и нули каждый делают примерно половину сглаживания. Значения t для каждой части сглаживания (полюса, нули, множественные приложения вперед и назад и т. Д.) Являются аддитивными в соответствии с приблизительным свойством полугруппы.

Расположение в плоскости Z четырех полюсов (X) и четырех нулей (кружков) для сглаживающего фильтра, использующего прямой / обратный биквадрат для сглаживания до масштаба t = 2, с половиной сглаживания от полюсов и половиной от нулей. Все нули находятся при Z = –1; полюса находятся при Z = 0,172 и Z = 5,83. Полюса за пределами единичного круга реализуются путем фильтрации в обратном направлении с помощью устойчивых полюсов.

Передаточная функция КИХ-фильтра тесно связана с дискретным гауссовским ДВПФ, как и рекурсивный фильтр. Для одной пары нулей передаточная функция равна

{\ displaystyle {\ widehat {T}} (\ theta, t) = e ^ {- t (1- \ cos \ theta)} \ приблизительно {1-t (1- \ cos \ theta)} = F_ {1 } (\ theta, t),}

где параметр t здесь связан с нулевыми положениями Z = z через:

{\ displaystyle t = - {\ frac {2z} {(1-z) ^ {2}}},}

и нам требуется t ≤ 0,5, чтобы передаточная функция оставалась неотрицательной.

Кроме того, такие фильтры с N парами нулей являются еще лучшим приближением к экспоненте и распространяются на более высокие значения t :

{\ displaystyle \ left (1 - {\ frac {t} {N}} (1- \ cos \ theta) \ right) ^ {N} = F_ {N} (\ theta, t),}

где стабильные нулевые положения настраиваются путем решения:

{\ displaystyle {\ frac {t} {N}} = - {\ frac {2z} {(1-z) ^ {2}}}.}

Эти КИХ-фильтры и фильтры с нулевым полюсом являются действительными ядрами масштабного пространства, удовлетворяющими тем же аксиомам, что и все полюсные рекурсивные фильтры.

Реализация в реальном времени в пирамидах и дискретная аппроксимация масштабно-нормированных производных

Что касается автоматического выбора масштаба на основе нормализованных производных, аппроксимации пирамиды часто используются для получения производительности в реальном времени. ^[11]^[12]^[13] Уместность аппроксимации операций масштабного пространства внутри пирамиды проистекает из того факта, что повторное каскадное сглаживание с обобщенными биномиальными ядрами приводит к эквивалентным ядрам сглаживания, которые при разумных условиях приближаются к гауссову. Кроме того, биномиальное ядро (или в более общем случае класс обобщенных биномиальных ядер) можно показать , представляет собой уникальный класс конечно-поддержки ядер , которые гарантируют Невозникновение локальных экстремумов или нулевых пересечений с увеличением масштаба (см статьи на несколько -масштабно подходит к деталям). Однако может потребоваться особая осторожность, чтобы избежать артефактов дискретизации.

Другие многомасштабные подходы

Для одномерных ядер существует хорошо разработанная теория многомасштабных подходов , касающихся фильтров, которые не создают новых локальных экстремумов или новых переходов через ноль с увеличением масштабов. Для непрерывных сигналов фильтры с действительными полюсами на s- плоскости относятся к этому классу, в то время как для дискретных сигналов вышеописанные рекурсивные и КИХ-фильтры удовлетворяют этим критериям. В сочетании со строгим требованием непрерывной полугрупповой структуры, непрерывный гауссовский и дискретный гауссовский представляют собой уникальный выбор для непрерывных и дискретных сигналов.

Существует множество других методов многомасштабной обработки сигналов, обработки изображений и сжатия данных с использованием вейвлетов и множества других ядер, которые не используют или не требуют тех же требований, что и описания масштабного пространства ; то есть они не зависят от более грубого масштаба, не генерируя новый экстремум, который не присутствовал в более мелком масштабе (в 1D), или от отсутствия усиления локальных экстремумов между соседними масштабными уровнями (в любом количестве измерений).

Смотрите также

Масштабировать пространство
Пирамида (обработка изображений)
Многомасштабные подходы
Гауссов фильтр