Пирамида (обработка изображений)

Обнаружение функции
Обнаружение края
Canny Deriche Дифференциальный Собель Prewitt Робертс Кросс
Обнаружение углов
Оператор Харриса Ши и Томази Кривизна кривой уровня Меры силы гессенской особенности СЬЮЗЕН БЫСТРЫЙ
Обнаружение BLOB-объектов
Лапласиан Гаусса (LoG) Разница гауссианов (DoG) Определитель Гессе (DoH) Максимально устойчивые экстремальные области PCBR
Обнаружение гребня
Преобразование Хафа
Преобразование Хафа Обобщенное преобразование Хафа
Структурный тензор
Структурный тензор Обобщенный структурный тензор
Обнаружение аффинно-инвариантных признаков
Адаптация аффинной формы Харрис аффинный Гессенское аффинное
Описание функции
ПРОСЕЯТЬ СЕРФ GLOH БОРЬБА
Масштабировать пространство
Аксиомы масштабного пространства Детали реализации Пирамиды
v т е

Визуальное представление пирамиды изображений с 5 уровнями

Пирамида , или представление пирамиды , представляет собой тип разномасштабную сигнала представления , разработанная компьютерного зрения , обработки изображений и обработки сигналов сообществ, в которых сигнал или изображение подлежит повторному сглаживанием и подвыборки . Представление пирамиды является предшественником представления в масштабном пространстве и анализа с несколькими разрешениями .

Генерация пирамиды

Существует два основных типа пирамид: lowpass и bandpass.

Пирамида нижних частот создается путем сглаживания изображения с помощью соответствующего сглаживающего фильтра и затем субдискретизации сглаженного изображения, обычно с коэффициентом 2 вдоль каждого координатного направления. Полученное изображение затем подвергается той же процедуре, и цикл повторяется несколько раз. Каждый цикл этого процесса приводит к уменьшению изображения с повышенным сглаживанием, но с уменьшенной плотностью пространственной выборки (то есть уменьшенным разрешением изображения). Если проиллюстрировать графически, все многомасштабное представление будет выглядеть как пирамида с исходным изображением внизу и меньшим изображением, полученным в результате каждого цикла, уложенным одно поверх другого.

Пирамида полосы пропускания создается путем формирования разницы между изображениями на соседних уровнях в пирамиде и выполнения интерполяции изображений между соседними уровнями разрешения, чтобы обеспечить вычисление пиксельных различий. ^[1]

Ядра генерации пирамид

Для создания пирамид было предложено множество различных ядер сглаживания . ^[2]^[3]^[4]^[5]^[6]^[7] Среди предложений, которые были даны, биномиальные ядра, возникающие из биномиальных коэффициентов, выделяются как особенно полезный и теоретически хорошо обоснованный класс. ^[3]^[8]^[9]^[10]^[11]Таким образом, для двумерного изображения мы можем применить (нормализованный) биномиальный фильтр (1/4, 1/2, 1/4), как правило, дважды или более по каждому пространственному измерению, а затем выполнить субдискретизацию изображения с коэффициентом два. Затем эта операция может выполняться сколько угодно раз, что приводит к компактному и эффективному многомасштабному представлению. Если это мотивировано особыми требованиями, промежуточные уровни шкалы также могут быть сгенерированы, когда этап субдискретизации иногда не учитывается, что приводит к избыточной выборке или гибридной пирамиде . ^[10] С ростом вычислительной эффективности доступных сегодня ЦП , в некоторых ситуациях также возможно использовать более широкие поддерживаемые фильтры Гаусса в качестве сглаживающих ядер на этапах создания пирамиды.

Пирамида Гаусса

В пирамиде Гаусса последующие изображения уменьшаются с использованием среднего значения по Гауссу ( размытие по Гауссу ) и уменьшаются в масштабе. Каждый пиксель, содержащий локальное среднее значение, соответствует пикселю соседства на нижнем уровне пирамиды. Этот метод особенно используется при синтезе текстур .

Лапласианская пирамида

Пирамида Лапласа очень похожа на пирамиду Гаусса, но сохраняет различное изображение размытых версий между каждым уровнем. Только наименьший уровень не является разностным изображением, чтобы можно было восстановить изображение с высоким разрешением с использованием разностных изображений на более высоких уровнях. Этот метод можно использовать при сжатии изображений . ^[12]

Управляемая пирамида

Управляемая пирамида, разработанная Симончелли и другими, представляет собой реализацию многомасштабного банка полосовых фильтров с разной ориентацией, используемого для приложений, включая сжатие изображений , синтез текстур и распознавание объектов . Его можно рассматривать как вариант лапласовской пирамиды с селективной ориентацией, в которой на каждом уровне пирамиды используется набор управляемых фильтров вместо одного лапласовского или гауссовского фильтра . ^[13]^[14]^[15]

Приложения пирамид

Альтернативное представительство

На заре компьютерного зрения пирамиды использовались в качестве основного типа многомасштабного представления для вычисления функций многомасштабного изображения из данных реального мира. Более современные методы включают представление масштабного пространства , которое было популярно среди некоторых исследователей из-за его теоретической основы, способности отделить этап подвыборки от многомасштабного представления, более мощные инструменты для теоретического анализа, а также способность вычислять представление в любом желаемом масштабе, что позволяет избежать алгоритмических проблем соотнесения представлений изображений с разным разрешением. Тем не менее пирамиды по-прежнему часто используются для выражения вычислительно эффективных приближений к представлению в масштабном пространстве.. ^[10]^[16]^[17]

Манипуляции с деталями

Пирамиды лапласовских изображений, основанные на двустороннем фильтре, обеспечивают хорошую основу для улучшения деталей изображения и манипулирования ими. ^{[ Требуется цитата ]} Различия изображений между каждым слоем изменены, чтобы преувеличить или уменьшить детали в разных масштабах изображения.

Некоторые форматы файлов сжатия изображений используют алгоритм Adam7 или другую технику чересстрочной развертки . Их можно рассматривать как своего рода пирамиду изображений. Поскольку в этом формате файла сначала сохраняются «крупномасштабные» функции, а затем мелкие детали в файле, конкретный зритель, отображающий небольшую «миниатюру» или на маленьком экране, может быстро загрузить ровно столько изображения, чтобы отобразить его в доступные пиксели - поэтому один файл может поддерживать множество разрешений средства просмотра, вместо того, чтобы хранить или создавать разные файлы для каждого разрешения.

Смотрите также

Mipmap
Реализация масштабного пространства
Уровень детализации
JPEG 2000 # Представление с несколькими разрешениями

использованная литература

^ ЕН Андельсон и СН Андерсон и JR Берген и PJ Берт и Дж.М. Огден. «Пирамидальные методы обработки изображений» . 1984 г.
Перейти ↑ Burt, PJ (май 1981). «Быстрое преобразование фильтров для обработки изображений». Компьютерная графика и обработка изображений . 16 : 20–51. DOI : 10.1016 / 0146-664X (81) 90092-7 .
^ a b Кроули, Джеймс Л. (ноябрь 1981 г.). «Представление для визуальной информации» . Университет Карнеги-Меллона, Институт робототехники. tech. отчет CMU-RI-TR-82-07. Цитировать журнал требует |journal=( помощь )
^ Берт, Питер; Адельсон, Тед (1983). «Лапласовская пирамида как компактный код изображения» (PDF) . IEEE Trans. Commun . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .
^ Кроули, JL; Паркер, AC (март 1984 г.). «Представление формы, основанное на пиках и гребнях разницы низкочастотного преобразования». IEEE Transactions по анализу шаблонов и машинному анализу . 6 (2): 156–170. CiteSeerX 10.1.1.161.3102 . DOI : 10.1109 / TPAMI.1984.4767500 . PMID 21869180 .
^ Кроули, JL; Сандерсон, AC (1987). «Представление с множеством разрешений и вероятностное соответствие двухмерной серой шкалы» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . DOI : 10.1109 / tpami.1987.4767876 . PMID 21869381 .
^ Meer, P .; Баугер, ES; Розенфельд, А. (1987). «Анализ в частотной области и синтез ядер, генерирующих изображения». IEEE Transactions по анализу шаблонов и машинному анализу . 9 (4): 512–522. DOI : 10.1109 / tpami.1987.4767939 . PMID 21869409 .
↑ Линдеберг, Тони, « Масштабное пространство для дискретных сигналов », PAMI (12), № 3, март 1990 г., стр. 234–254.
^ Линдеберг, Тони. Теория масштабного пространства в компьютерном зрении , Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (см., В частности, главу 2 для обзора гауссовых и лапласовских пирамид изображений и главу 3 для теории обобщенных биномиальных ядер и дискретных гауссовских ядер).
^ a b c Линдеберг, Т. и Бретцнер, Л. Выбор шкалы в реальном времени в гибридных многомасштабных представлениях , Proc. Scale-Space'03, остров Скай, Шотландия, Springer Lecture Notes по информатике, том 2695, страницы 148-163, 2003.
^ См. Статью о многомасштабных подходах для очень краткого теоретического утверждения.
^ Берт, Питер Дж .; Адельсон, Эдвард Х. (1983). «Лапласовская пирамида как компактный код изображения» (PDF) . Транзакции IEEE по коммуникациям . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .
^ Симончелли, Ээро. "Управляемая пирамида" . cns.nyu.edu.
^ Мандучи, Роберто; Перона, Пьетро; Застенчивый, Дуг (1997). «Эффективные деформируемые блоки фильтров» (PDF) . Калифорнийский технологический институт / Падуанский университет .
Также в Manduchi, R .; Perona, P .; Шай, Д. (1998). «Эффективные деформируемые фильтры-банки». Сделки по обработке сигналов . 46 (4): 1168–1173. Bibcode : 1998ITSP ... 46.1168M . CiteSeerX 10.1.1.5.3102 . DOI : 10.1109 / 78.668570 .
^ Стэнли А. Кляйн; Том Карни; Лорен Баргоут-Штайн и Кристофер В. Тайлер «Семь моделей маскировки», Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (3 июня 1997 г.); DOI : 10,1117 / 12,274510
^ Кроули, Дж., Рифф О. Быстрое вычисление масштабно нормализованных гауссовских рецептивных полей , Proc. Scale-Space'03, Остров Скай, Шотландия, Springer Lecture Notes in Computer Science , volume 2695, 2003.
Перейти ↑ Lowe, DG (2004). «Отличительные особенности изображения от масштабно-инвариантных ключевых точек» . Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . DOI : 10,1023 / Б: VISI.0000029664.99615.94 .

внешняя ссылка

Кодирование изображений пирамиды Гаусса-Лапласа - иллюстрирует методы понижающей дискретизации , повышающей дискретизации и гауссовой свертки.
Пирамида Гаусса - дает краткое введение в процедуру и цитирует несколько источников.
Пирамида нерегулярного графа Лапласа - Рисунок 1 на этой странице иллюстрирует пример пирамиды Гаусса.
Лапласовская пирамида как компактный код изображения при подаче электронных книг

[1] ЕН Андельсон и СН Андерсон и JR Берген и PJ Берт и Дж.М. Огден. «Пирамидальные методы обработки изображений» . 1984 г.

[2] Перейти ↑ Burt, PJ (май 1981). «Быстрое преобразование фильтров для обработки изображений». Компьютерная графика и обработка изображений . 16 : 20–51. DOI : 10.1016 / 0146-664X (81) 90092-7 .

[Crowley1981-3] Кроули, Джеймс Л. (ноябрь 1981 г.). «Представление для визуальной информации» . Университет Карнеги-Меллона, Институт робототехники. tech. отчет CMU-RI-TR-82-07. Цитировать журнал требует |journal=( помощь )

[4] Берт, Питер; Адельсон, Тед (1983). «Лапласовская пирамида как компактный код изображения» (PDF) . IEEE Trans. Commun . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .

[5] Кроули, JL; Паркер, AC (март 1984 г.). «Представление формы, основанное на пиках и гребнях разницы низкочастотного преобразования». IEEE Transactions по анализу шаблонов и машинному анализу . 6 (2): 156–170. CiteSeerX 10.1.1.161.3102 . DOI : 10.1109 / TPAMI.1984.4767500 . PMID 21869180 .

[6] Кроули, JL; Сандерсон, AC (1987). «Представление с множеством разрешений и вероятностное соответствие двухмерной серой шкалы» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . DOI : 10.1109 / tpami.1987.4767876 . PMID 21869381 .

[7] Meer, P .; Баугер, ES; Розенфельд, А. (1987). «Анализ в частотной области и синтез ядер, генерирующих изображения». IEEE Transactions по анализу шаблонов и машинному анализу . 9 (4): 512–522. DOI : 10.1109 / tpami.1987.4767939 . PMID 21869409 .

[8] Линдеберг, Тони, « Масштабное пространство для дискретных сигналов », PAMI (12), № 3, март 1990 г., стр. 234–254.

[9] Линдеберг, Тони. Теория масштабного пространства в компьютерном зрении , Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (см., В частности, главу 2 для обзора гауссовых и лапласовских пирамид изображений и главу 3 для теории обобщенных биномиальных ядер и дискретных гауссовских ядер).

[LinBre03-ScSp-10] Линдеберг, Т. и Бретцнер, Л. Выбор шкалы в реальном времени в гибридных многомасштабных представлениях , Proc. Scale-Space'03, остров Скай, Шотландия, Springer Lecture Notes по информатике, том 2695, страницы 148-163, 2003.

[11] См. Статью о многомасштабных подходах для очень краткого теоретического утверждения.

[12] Берт, Питер Дж .; Адельсон, Эдвард Х. (1983). «Лапласовская пирамида как компактный код изображения» (PDF) . Транзакции IEEE по коммуникациям . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . DOI : 10.1109 / TCOM.1983.1095851 .

[13] Симончелли, Ээро. "Управляемая пирамида" . cns.nyu.edu.

[14] Мандучи, Роберто; Перона, Пьетро; Застенчивый, Дуг (1997). «Эффективные деформируемые блоки фильтров» (PDF) . Калифорнийский технологический институт / Падуанский университет .
Также в Manduchi, R .; Perona, P .; Шай, Д. (1998). «Эффективные деформируемые фильтры-банки». Сделки по обработке сигналов . 46 (4): 1168–1173. Bibcode : 1998ITSP ... 46.1168M . CiteSeerX 10.1.1.5.3102 . DOI : 10.1109 / 78.668570 .

[15] Стэнли А. Кляйн; Том Карни; Лорен Баргоут-Штайн и Кристофер В. Тайлер «Семь моделей маскировки», Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (3 июня 1997 г.); DOI : 10,1117 / 12,274510

[16] Кроули, Дж., Рифф О. Быстрое вычисление масштабно нормализованных гауссовских рецептивных полей , Proc. Scale-Space'03, Остров Скай, Шотландия, Springer Lecture Notes in Computer Science , volume 2695, 2003.

[17] Перейти ↑ Lowe, DG (2004). «Отличительные особенности изображения от масштабно-инвариантных ключевых точек» . Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . DOI : 10,1023 / Б: VISI.0000029664.99615.94 .