Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Документ мозаик является процессом , который стежки несколько, перекрывающихся снимков изображения документа вместе , чтобы произвести один большой, с высоким разрешением композита. Документ продвигается вручную под стационарную камеру, устанавливаемую над столом, до тех пор, пока все части документа не будут сфотографированы в поле зрения камеры. Когда документ скользил под камерой, все движения документа грубо отслеживаются системой технического зрения. Документ периодически создается моментальным снимком, так что последовательные снимки перекрываются примерно на 50%. Затем система находит перекрывающиеся пары и многократно сшивает их вместе, пока все пары не будут сшиты вместе как один кусок документа. [1]

Мозаику документа можно разделить на четыре основных процесса.

Отслеживание (простой процесс корреляции) [ править ]

В этом процессе движение документа, скользящего под камерой, грубо отслеживается системой. Отслеживание выполняется с помощью процесса, называемого простой корреляцией.процесс. В первом кадре моментальных снимков небольшой фрагмент извлекается из центра изображения в качестве шаблона корреляции, как показано на рисунке 1. Процесс корреляции выполняется в четырехкратном размере области фрагмента следующего кадра. На движение бумаги указывает пик корреляционной функции. Пик корреляционной функции указывает на движение бумаги. Из этого кадра выполняется повторная выборка шаблона, и отслеживание продолжается до тех пор, пока шаблон не достигнет края документа. После того, как шаблон достигает края документа, делается еще один снимок, и процесс отслеживания выполняется многократно, пока не будет отображен весь документ. Снимки хранятся в упорядоченном списке, чтобы упростить объединение перекрывающихся изображений в более поздние процессы.

Обнаружение признаков для эффективного сопоставления [ править ]

Обнаружение признаков - это процесс поиска преобразования, которое выравнивает одно изображение с другим. Есть два основных подхода к обнаружению функций. [2] [3]

  • Подход, основанный на признаках  : параметры движения оцениваются по точечным соответствиям. Этот подход подходит для случая, когда имеется множество стабильных и обнаруживаемых функций.
  • Безликий подход  : когда движение между двумя изображениями невелико, параметры движения оцениваются с использованием оптического потока . С другой стороны, когда движение между двумя изображениями велико, параметры движения оцениваются с использованием обобщенной взаимной корреляции . Однако этот подход требует затратных в вычислительном отношении ресурсов.

Каждое изображение сегментировано на иерархию столбцов, строк и слов, чтобы соответствовать организованным наборам функций на изображениях. Оценка угла перекоса и поиск столбцов, линий и слов являются примерами операций обнаружения признаков.

Оценка угла перекоса [ править ]

Во-первых, оценивается угол между строками текста и линиями растра изображения (угол наклона). Предполагается, что он лежит в диапазоне ± 20 °. Небольшой фрагмент текста на изображении выбирается случайным образом и затем поворачивается в диапазоне ± 20 ° до тех пор, пока дисперсия интенсивности пикселей фрагмента, суммированного по линиям растра, не станет максимальной. [4] См. Рисунок 2.

Чтобы гарантировать точность найденного угла перекоса, система мозаики документа выполняет вычисление на многих участках изображения и получает окончательную оценку, находя среднее значение отдельных углов, взвешенных по дисперсии яркости пикселей каждого участка.

Поиск столбцов, строк и слов [ править ]

В ходе этой операции деактивируемый документ интуитивно сегментируется на иерархию столбцов, строк и слов. Чувствительность к освещению и окрашиванию страницы в деискаженном документе можно устранить, применив оператор Собеля к деискаженному изображению и установив пороговое значение для вывода, чтобы получить бинарное градиентное, деискаженное изображение. [5] См. Рисунок 3.

Операцию можно условно разделить на 3 этапа: сегментация столбцов, сегментация строк и сегментация слов.

  1. Столбцы легко сегментируются из бинарных градиентных , деискаженных изображений путем суммирования пикселей по вертикали, как показано на рисунке 4.
  2. Базовые линии каждой строки сегментируются так же, как и процесс сегментации столбцов, но по горизонтали.
  3. Наконец, отдельные слова сегментируются путем применения вертикального процесса к каждой сегментированной строке.

Эти сегментирования важны, потому что мозаика документа создается путем сопоставления правых нижних углов слов в паре перекрывающихся изображений. Более того, операция сегментации может надежно организовать список изображений в контексте иерархии строк и столбцов.

Операция сегментации включает в себя значительный объем суммирования в двоичном градиенте деискаженных изображений, которое выполняется путем построения матрицы частичных сумм [6] , элементы которой задаются

Матрица частичных сумм вычисляется за один проход через двоичное градиентное изображение без перекоса. [6]

Установление корреспонденции [ править ]

Два изображения теперь организованы в иерархию связанных списков в следующей структуре:

  • image = список столбцов
  • row = список слов
  • столбец = список строк
  • слово = длина (в пикселях)

Внизу структуры записывается длина каждого слова для установления соответствия между двумя изображениями, чтобы уменьшить их для поиска только соответствующих структур для групп слов с совпадающими длинами.

Поиск совпадения семян [ править ]

Поиск начального совпадения выполняется путем сравнения каждой строки в image1 с каждой строкой в ​​image2. Затем две строки сравниваются друг с другом по каждому слову. Если длина (в пикселях) двух слов (одно из изображения 1 и одно из изображения 2) и их непосредственных соседей согласуются друг с другом в пределах заранее определенного порога допуска (например, 5 пикселей), то предполагается, что они совпадают. Строка каждого изображения считается совпадающей, если между двумя строками есть три или более совпадения слов. Операция поиска начального совпадения прекращается, когда обнаруживаются две пары последовательных совпадений строк.

Составление списка матчей [ править ]

После завершения операции поиска начального совпадения следующий процесс состоит в построении списка совпадений для создания точек соответствия двух изображений. Процесс выполняется путем поиска совпадающих пар рядов вдали от семенного ряда.

Мозаика изображений [ править ]

Рисунок 5  : Мозаичное изображение двух изображений документа. Размытие очевидно в аффинной мозаике (b), но не в мозаике, построенной с использованием проективности плоскости к плоскости (a). Крупные планы типичных швов (a) и (b) показаны на (c) и (d) соответственно. [1]

Учитывая список соответствующих точек двух изображений, следующим процессом является поиск преобразования перекрывающейся части изображений. Предполагая модель камеры-обскуры , преобразование между пикселями (u, v) изображения 1 и пикселями (u0, v0) изображения 2 демонстрируется проекционной способностью плоскости к плоскости. [7]

Параметры проективности находятся из четырех пар совпадающих точек. Метод регрессии RANSAC [8] используется для отклонения крайних совпадений и оценки проективности оставшихся хороших совпадений.

Проективность точно настраивается с использованием корреляции в углах перекрывающейся части для получения четырех соответствий с точностью до субпикселя. Следовательно, изображение 1 затем преобразуется в систему координат изображения 2 с помощью уравнения 1. Типичный результат процесса показан на рисунке 5.

Многие изображения справляются [ править ]

Наконец, вся композиция страницы создается путем сопоставления всех изображений с системой координат «привязанного» изображения, которое обычно является ближайшим к центру страницы. Преобразования в опорный кадр вычисляются путем конкатенации найденных ранее парных преобразований. Мозаика исходного документа показана на рисунке 6.

Однако может возникнуть проблема перекрытия непоследовательных изображений. Эту проблему можно решить, выполнив иерархическую подмозаику. Как показано на рисунке 7, регистрируются image1 и image2, а также image3 и image4, образуя две субмозаики. Эти две субмозаики позже сшиваются вместе в другом процессе мозаики.

Прикладные области [ править ]

Техника мозаики документов может быть применена в различных областях, например:

  • Текстовая сегментация изображений документов [5]
  • Распознавание документов [4]
  • Взаимодействие с бумагой на цифровом столе [9]
  • Видеомозаики для виртуальных сред [10]
  • Методы совмещения изображений [3]

Соответствующие исследовательские работы [ править ]

  • Хуанг, Т.С.; Нетравали, АН (1994). «Движение и структура из соответствий функций: обзор». Труды IEEE . 82 (2): 252–268. DOI : 10.1109 / 5.265351 .
  • Д.Г. Лоу. [1] Организация восприятия и визуальное распознавание. Kluwer Academic Publishers, Бостон, 1985.
  • Irani, M .; Пелег, С. (1991). «Повышение разрешения путем регистрации изображения». CVGIP: Графические модели и обработка изображений . 53 (3): 231–239. DOI : 10.1016 / 1049-9652 (91) 90045-L .
  • Shivakumara, P .; Кумар, Г. Хеманта; Гуру, DS; Нагабхушан, П. (2006). «Подход на основе скользящего окна для мозаики изображения документа» . Вычисления изображений и зрения . 24 (1): 94–100. DOI : 10.1016 / j.imavis.2005.09.015 .
  • [2] Мозаика изображения документа с помощью камеры. (nd). Изображение (Рочестер, штат Нью-Йорк), 1.
  • Кумар, GH; Shivakumara, P .; Гуру, DS; Нагабхушан (2004). «Мозаика изображения документа: новый подход» (PDF) . Текст . 29 (3): 329–341. CiteSeerX  10.1.1.107.4304 . DOI : 10.1007 / bf02703782 .
  • Сато, Т., Икеда, С., Канбара, М., Икетани, А., Накадзима, Н., Йокоя, Н., и Ямада, К. (nd). Видеомозаика высокого разрешения для документов и фотографий по оценке движения камеры. Мозаика. Междисциплинарный литературный журнал.

Ссылки [ править ]

  1. ^ a b c d Заппала, Энтони; Джи, Эндрю; Тейлор, Майкл (1999). «Мозаика документов». Вычисления изображений и зрения . 17 (8): 589–595. DOI : 10.1016 / S0262-8856 (98) 00178-4 .
  2. ^ Mann, S .; Пикард, RW (1995). «Видеоорбиты проективной группы: новый взгляд на мозаику изображений». Технический отчет (секция перцептивных вычислений), MIT Media Laboratory (338). CiteSeerX 10.1.1.56.6000 . 
  3. ^ а б Браун, LG (1992). «Обзор методов совмещения изображений». ACM Computing Surveys . 24 (4): 325–376. CiteSeerX 10.1.1.35.2732 . DOI : 10.1145 / 146370.146374 . 
  4. ^ a b Блумберг, Дэн С .; Копек, Гэри Э .; Дасари, Лакшми (1995). «Измерение перекоса и ориентации изображения документа» (PDF) . В Винсенте, Люк М; Бэрд, Генри S (ред.). Распознавание документов II . Труды ШПИ. 2422 . С. 302–315. Bibcode : 1995SPIE.2422..302B . DOI : 10.1117 / 12.205832 .
  5. ^ а б Тейлор, MJ; Заппала, А .; Ньюман, ВМ; Танец, CR (1999). «Документы через камеры». Вычисления изображений и зрения . 17 (11): 831–844. DOI : 10.1016 / S0262-8856 (98) 00155-3 .
  6. ^ a b Препарата, FP; Шамос, Мичиган (1985). Вычислительная геометрия: Введение . Монографии по информатике. Springer – Verlag. ISBN 9780387961316.
  7. ^ Манди, JL; Зиссерман, А. (1992). «Приложение-Проективная геометрия для машинного зрения» . Геометрическая инвариантность в компьютерном зрении . Кембридж, Массачусетс: MIT Press. CiteSeerX 10.1.1.17.1329 . 
  8. ^ Мартин А. Фишлер; Роберт К. Боллес (1981). «Консенсус по случайной выборке: парадигма подгонки модели с приложениями для анализа изображений и автоматизированной картографии» (PDF) . Коммуникации ACM . 24 (6): 381–395. DOI : 10.1145 / 358669.358692 .
  9. ^ Wellner, P. (1993). «Взаимодействие с бумагой на цифровом столе». Коммуникации ACM . 36 (7): 87–97. CiteSeerX 10.1.1.53.7526 . DOI : 10.1145 / 159544.159630 . 
  10. ^ Szeliski, R. (1996). «Видеомозаики для виртуальных сред». Компьютерная графика и приложения IEEE . 16 (2): 22–306. DOI : 10.1109 / 38.486677 .

Библиография [ править ]

  • Энтони, Заппала; Эндрю Джи; Майкл Тейлор (1999). «Мозаика документов». Вычисления изображений и зрения . 17 (8): 589–595. DOI : 10.1016 / S0262-8856 (98) 00178-4 .

Внешние ссылки [ править ]

  • Домашняя страница Advanced Vision