Пирамида (обработка изображений)

Обнаружение функции
Обнаружение края
Canny Deriche Дифференциальный Собель Prewitt Робертс Кросс
Обнаружение углов
Оператор Харриса Ши и Томази Кривизна кривой уровня Меры силы гессенской особенности СЬЮЗЕН БЫСТРЫЙ
Обнаружение BLOB-объектов
Лапласиан Гаусса (LoG) Разница гауссианов (DoG) Определитель Гессе (DoH) Максимально устойчивые экстремальные области PCBR
Обнаружение гребня
Преобразование Хафа
Преобразование Хафа Обобщенное преобразование Хафа
Структурный тензор
Структурный тензор Обобщенный структурный тензор
Обнаружение аффинно-инвариантных признаков
Адаптация аффинной формы Харрис аффинный Гессенское аффинное
Описание функции
ПРОСЕЯТЬ СЕРФ GLOH HOG
Масштабировать пространство
Аксиомы масштабного пространства Детали реализации Пирамиды
v т е

Визуальное представление пирамиды изображений с 5 уровнями

Пирамида , или представление пирамиды , представляет собой тип разномасштабную сигнала представления , разработанная компьютерного зрения , обработки изображений и обработки сигналов сообществ, в которых сигнал или изображение подлежит повторному сглаживанием и подвыборки . Представление пирамиды является предшественником представления в масштабном пространстве и анализа с несколькими разрешениями .

Генерация пирамиды [ править ]

Существует два основных типа пирамид: lowpass и bandpass.

Пирамида нижних частот создается путем сглаживания изображения с помощью соответствующего сглаживающего фильтра, а затем субдискретизации сглаженного изображения, обычно с коэффициентом 2 вдоль каждого координатного направления. Полученное изображение затем подвергается той же процедуре, и цикл повторяется несколько раз. Каждый цикл этого процесса приводит к уменьшению изображения с повышенным сглаживанием, но с уменьшенной плотностью пространственной выборки (то есть уменьшенным разрешением изображения). Если проиллюстрировать графически, все многомасштабное представление будет выглядеть как пирамида с исходным изображением внизу и меньшим изображением, полученным в результате каждого цикла, наложенным одно на другое.

Пирамида полосы пропускания создается путем формирования разницы между изображениями на соседних уровнях в пирамиде и выполнения интерполяции изображений между соседними уровнями разрешения, чтобы обеспечить вычисление пиксельных различий. ^[1]

Ядра генерации пирамид [ править ]

Для создания пирамид было предложено множество различных ядер сглаживания . ^[2]^[3]^[4]^[5]^[6]^[7] Среди предложений, которые были даны, биномиальные ядра, возникающие из биномиальных коэффициентов, выделяются как особенно полезный и теоретически хорошо обоснованный класс. ^[3]^[8]^[9]^[10]^[11]Таким образом, для двумерного изображения мы можем применить (нормализованный) биномиальный фильтр (1/4, 1/2, 1/4), как правило, дважды или более по каждому пространственному измерению, а затем субдискретизировать изображение с коэффициентом два. Затем эта операция может выполняться сколько угодно раз, что приводит к компактному и эффективному многомасштабному представлению. Если это мотивировано особыми требованиями, могут также быть сгенерированы промежуточные уровни шкалы, где этап субдискретизации иногда не учитывается, что приводит к избыточной выборке или гибридной пирамиде . ^[10] С ростом вычислительной эффективности доступных сегодня ЦП , в некоторых ситуациях также возможно использовать более широкие поддерживающие фильтры Гаусса в качестве сглаживающих ядер на этапах создания пирамиды.

Пирамида Гаусса [ править ]

В пирамиде Гаусса последующие изображения уменьшаются с использованием среднего значения по Гауссу ( размытие по Гауссу ) и уменьшаются в масштабе. Каждый пиксель, содержащий локальное среднее значение, соответствует пикселю соседства на нижнем уровне пирамиды. Этот метод особенно используется при синтезе текстур .

Лапласианская пирамида [ править ]

Пирамида Лапласа очень похожа на пирамиду Гаусса, но сохраняет различное изображение размытых версий между каждым уровнем. Только наименьший уровень не является разностным изображением, чтобы можно было реконструировать изображение с высоким разрешением с использованием разностных изображений на более высоких уровнях. Этот метод можно использовать при сжатии изображений . ^[12]

Управляемая пирамида [ править ]

Управляемая пирамида, разработанная Симончелли и другими, представляет собой реализацию многомасштабного банка полосовых фильтров с разной ориентацией, используемого для приложений, включая сжатие изображений , синтез текстур и распознавание объектов . Его можно рассматривать как вариант лапласовской пирамиды с селективной ориентацией, в которой на каждом уровне пирамиды используется набор управляемых фильтров вместо одного лапласовского или гауссовского фильтра . ^[13]^[14]^[15]

Приложения пирамид [ править ]

Альтернативное представление [ править ]

На заре компьютерного зрения пирамиды использовались в качестве основного типа многомасштабного представления для вычисления функций многомасштабного изображения из данных реального мира. Более современные методы включают представление масштабного пространства , которое было популярно среди некоторых исследователей из-за его теоретической основы, способности отделить этап субдискретизации от многомасштабного представления, более мощные инструменты для теоретического анализа, а также способность вычислять представление в любом желаемом масштабе, что позволяет избежать алгоритмических проблем соотнесения представлений изображений с разным разрешением. Тем не менее пирамиды по-прежнему часто используются для выражения вычислительно эффективных приближений к представлению в масштабном пространстве.. ^[10]^[16]^[17]

Манипуляции с деталями [ править ]

Пирамиды лапласовских изображений, основанные на двустороннем фильтре, обеспечивают хорошую основу для улучшения деталей изображения и манипулирования ими. ^{[ необходима цитата ]} Разностные изображения между каждым слоем изменены, чтобы преувеличить или уменьшить детали в разных масштабах изображения.

Некоторые форматы файлов сжатия изображений используют алгоритм Adam7 или другую технику чересстрочной развертки . Их можно рассматривать как своего рода пирамиду изображений. Поскольку в этом формате файла сначала сохраняются «крупномасштабные» функции, а затем мелкие детали в файле, конкретный зритель, отображающий небольшую «миниатюру» или на маленьком экране, может быстро загрузить ровно столько изображения, чтобы отобразить его в доступные пиксели - поэтому один файл может поддерживать множество разрешений зрителя, вместо того, чтобы хранить или создавать разные файлы для каждого разрешения.

См. Также [ править ]

Mipmap
Реализация масштабного пространства
Уровень детализации
JPEG 2000 # Представление с несколькими разрешениями

Ссылки [ править ]

^ ЕН Андельсон и СН Андерсон и JR Берген и PJ Берт и Дж.М. Огден. «Пирамидальные методы обработки изображений» . 1984 г.
Перейти ↑ Burt, PJ (май 1981). «Быстрое преобразование фильтров для обработки изображений». Компьютерная графика и обработка изображений . 16 : 20–51. DOI : 10.1016 / 0146-664X (81) 90092-7 .
^ a b Кроули, Джеймс Л. (ноябрь 1981 г.). «Представление для визуальной информации» . Университет Карнеги-Меллона, Институт робототехники. tech. отчет CMU-RI-TR-82-07. Цитировать журнал требует |journal=( помощь )
^ Берт, Питер; Адельсон, Тед (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . IEEE Trans. Commun . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .
^ Кроули, JL; Паркер, AC (март 1984 г.). «Представление формы, основанное на пиках и гребнях разницы низкочастотного преобразования». IEEE Transactions по анализу шаблонов и машинному анализу . 6 (2): 156–170. CiteSeerX 10.1.1.161.3102 . DOI : 10.1109 / TPAMI.1984.4767500 . PMID 21869180 .
^ Кроули, JL; Сандерсон, AC (1987). «Представление с множеством разрешений и вероятностное соответствие двухмерной серой шкалы» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . DOI : 10.1109 / tpami.1987.4767876 . PMID 21869381 .
^ Meer, P .; Баугер, ES; Розенфельд, А. (1987). «Анализ в частотной области и синтез ядер, генерирующих изображения». IEEE Transactions по анализу шаблонов и машинному анализу . 9 (4): 512–522. DOI : 10.1109 / tpami.1987.4767939 . PMID 21869409 .
^ Линдеберг, Тони, " Масштабное пространство для дискретных сигналов ", PAMI (12), № 3, март 1990, стр. 234-254.
^ Линдеберг, Тони. Теория масштабного пространства в компьютерном зрении , Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (см., В частности, главу 2 для обзора гауссовых и лапласовских пирамид изображений и главу 3 для теории обобщенных биномиальных ядер и дискретных гауссовских ядер).
^ a b c Линдеберг, Т. и Бретцнер, Л. Выбор шкалы в реальном времени в гибридных многомасштабных представлениях , Proc. Scale-Space'03, остров Скай, Шотландия, Springer Lecture Notes по информатике, том 2695, страницы 148-163, 2003.
^ См. Статью о многомасштабных подходах для очень краткого теоретического утверждения.
^ Берт, Питер Дж .; Адельсон, Эдвард Х. (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . IEEE Transactions on Communications . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .
^ Симончелли, Ээро. "Управляемая пирамида" . cns.nyu.edu.
^ Мандучи, Роберто; Перона, Пьетро; Застенчивый, Дуг (1997). «Эффективные деформируемые фильтры фильтров» (PDF) . Калифорнийский технологический институт / Падуанский университет .
Также в Manduchi, R .; Perona, P .; Шай, Д. (1998). «Эффективные деформируемые фильтровальные банки». Сделки по обработке сигналов . 46 (4): 1168–1173. Bibcode : 1998ITSP ... 46.1168M . CiteSeerX 10.1.1.5.3102 . DOI : 10.1109 / 78.668570 .
^ Стэнли А. Кляйн; Том Карни; Лорен Баргоут-Штайн и Кристофер В. Тайлер «Семь моделей маскировки», Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (3 июня 1997 г.); DOI : 10,1117 / 12,274510
^ Кроули, J, Рифф О. Быстрое вычисление масштабно нормализованных гауссовских рецептивных полей , Proc. Scale-Space'03, Остров Скай, Шотландия, Springer Lecture Notes in Computer Science , volume 2695, 2003.
Перейти ↑ Lowe, DG (2004). «Отличительные особенности изображения от масштабно-инвариантных ключевых точек» . Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . DOI : 10,1023 / Б: VISI.0000029664.99615.94 .

Внешние ссылки [ править ]

Кодирование изображений пирамиды Гаусса-Лапласа - иллюстрирует методы понижающей дискретизации , повышающей дискретизации и гауссовой свертки.
Пирамида Гаусса - дает краткое введение в процедуру и цитирует несколько источников.
Пирамида нерегулярного графа Лапласа - Рисунок 1 на этой странице иллюстрирует пример пирамиды Гаусса.
Лапласовская пирамида как компактный код изображения при подаче электронных книг

[1] ЕН Андельсон и СН Андерсон и JR Берген и PJ Берт и Дж.М. Огден. «Пирамидальные методы обработки изображений» . 1984 г.

[2] Перейти ↑ Burt, PJ (май 1981). «Быстрое преобразование фильтров для обработки изображений». Компьютерная графика и обработка изображений . 16 : 20–51. DOI : 10.1016 / 0146-664X (81) 90092-7 .

[Crowley1981-3] Кроули, Джеймс Л. (ноябрь 1981 г.). «Представление для визуальной информации» . Университет Карнеги-Меллона, Институт робототехники. tech. отчет CMU-RI-TR-82-07. Цитировать журнал требует |journal=( помощь )

[4] Берт, Питер; Адельсон, Тед (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . IEEE Trans. Commun . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .

[5] Кроули, JL; Паркер, AC (март 1984 г.). «Представление формы, основанное на пиках и гребнях разницы низкочастотного преобразования». IEEE Transactions по анализу шаблонов и машинному анализу . 6 (2): 156–170. CiteSeerX 10.1.1.161.3102 . DOI : 10.1109 / TPAMI.1984.4767500 . PMID 21869180 .

[6] Кроули, JL; Сандерсон, AC (1987). «Представление с множеством разрешений и вероятностное соответствие двухмерной серой шкалы» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . DOI : 10.1109 / tpami.1987.4767876 . PMID 21869381 .

[7] Meer, P .; Баугер, ES; Розенфельд, А. (1987). «Анализ в частотной области и синтез ядер, генерирующих изображения». IEEE Transactions по анализу шаблонов и машинному анализу . 9 (4): 512–522. DOI : 10.1109 / tpami.1987.4767939 . PMID 21869409 .

[8] Линдеберг, Тони, " Масштабное пространство для дискретных сигналов ", PAMI (12), № 3, март 1990, стр. 234-254.

[9] Линдеберг, Тони. Теория масштабного пространства в компьютерном зрении , Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (см., В частности, главу 2 для обзора гауссовых и лапласовских пирамид изображений и главу 3 для теории обобщенных биномиальных ядер и дискретных гауссовских ядер).

[LinBre03-ScSp-10] Линдеберг, Т. и Бретцнер, Л. Выбор шкалы в реальном времени в гибридных многомасштабных представлениях , Proc. Scale-Space'03, остров Скай, Шотландия, Springer Lecture Notes по информатике, том 2695, страницы 148-163, 2003.

[11] См. Статью о многомасштабных подходах для очень краткого теоретического утверждения.

[12] Берт, Питер Дж .; Адельсон, Эдвард Х. (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . IEEE Transactions on Communications . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .

[13] Симончелли, Ээро. "Управляемая пирамида" . cns.nyu.edu.

[14] Мандучи, Роберто; Перона, Пьетро; Застенчивый, Дуг (1997). «Эффективные деформируемые фильтры фильтров» (PDF) . Калифорнийский технологический институт / Падуанский университет .
Также в Manduchi, R .; Perona, P .; Шай, Д. (1998). «Эффективные деформируемые фильтровальные банки». Сделки по обработке сигналов . 46 (4): 1168–1173. Bibcode : 1998ITSP ... 46.1168M . CiteSeerX 10.1.1.5.3102 . DOI : 10.1109 / 78.668570 .

[15] Стэнли А. Кляйн; Том Карни; Лорен Баргоут-Штайн и Кристофер В. Тайлер «Семь моделей маскировки», Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (3 июня 1997 г.); DOI : 10,1117 / 12,274510

[16] Кроули, J, Рифф О. Быстрое вычисление масштабно нормализованных гауссовских рецептивных полей , Proc. Scale-Space'03, Остров Скай, Шотландия, Springer Lecture Notes in Computer Science , volume 2695, 2003.

[17] Перейти ↑ Lowe, DG (2004). «Отличительные особенности изображения от масштабно-инвариантных ключевых точек» . Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . DOI : 10,1023 / Б: VISI.0000029664.99615.94 .