В области компьютерного зрения , 3D распознавание объектов включает в себя распознавание и определение 3D информации, такие как позы , объем или форма, пользовательские объекты подобранного 3D на фотографиях или диапазон сканирования . Обычно пример распознаваемого объекта представляется системе технического зрения в контролируемой среде, а затем для произвольного ввода, такого как видеопоток , система определяет местонахождение ранее представленного объекта. Это можно сделать как в автономном режиме, так и в режиме реального времени . Эти алгоритмыдля решения этой проблемы они специализируются на обнаружении одного предварительно идентифицированного объекта и могут быть противопоставлены алгоритмам, которые работают с общими классами объектов, такими как системы распознавания лиц или универсальное трехмерное распознавание объектов. Из-за низкой стоимости и простоты получения фотографий значительный объем исследований был посвящен распознаванию трехмерных объектов на фотографиях.
Распознавание 3D-объектов на фотографиях
Способ распознавания 3D-объекта зависит от свойств объекта. Для простоты многие существующие алгоритмы сосредоточены на распознавании твердых объектов, состоящих из одной части, то есть объектов, пространственное преобразование которых является евклидовым движением . К проблеме были применены два общих подхода: подходы к распознаванию образов используют низкоуровневую информацию о внешнем виде изображения для определения местоположения объекта, в то время как геометрические подходы, основанные на признаках, создают модель для распознаваемого объекта и сопоставляют модель с фотографией.
Подходы к распознаванию образов
Эти методы используют информацию о внешнем виде, собранную из предварительно захваченных или предварительно вычисленных проекций объекта, чтобы соответствовать объекту в потенциально загроможденной сцене. Однако они не принимают во внимание трехмерные геометрические ограничения объекта во время сопоставления и, как правило, также не обрабатывают окклюзию, а также подходы на основе функций. См. [Murase and Nayar 1995] и [Selinger and Nelson 1999].
Геометрические подходы на основе признаков
Подходы, основанные на признаках, хорошо подходят для объектов, которые имеют отличительные особенности . До сих пор успешно распознавались объекты с хорошими краевыми характеристиками или каплями ; например алгоритмы обнаружения, см. детектор аффинной области Харриса и SIFT , соответственно. Из-за отсутствия соответствующих детекторов признаков, объекты без текстурированной гладкой поверхности в настоящее время не могут обрабатываться с помощью этого подхода.
Распознаватели объектов на основе признаков обычно работают путем предварительного захвата ряда фиксированных представлений объекта, который необходимо распознать, извлечения признаков из этих представлений, а затем в процессе распознавания сопоставления этих признаков со сценой и применения геометрических ограничений.
В качестве примера прототипной системы, использующей этот подход, мы представим схему метода, используемого [Rothganger et al. 2004], но опущены некоторые детали. Метод начинается с предположения, что объекты подвергаются глобально жестким преобразованиям. Поскольку гладкие поверхности являются локально плоскими, аффинно-инвариантные элементы подходят для сопоставления: бумага обнаруживает интересующие области эллиптической формы, используя как кромочные, так и каплевидные элементы, и, согласно [Lowe 2004], находит доминирующее направление градиента ellipse, преобразует эллипс в параллелограмм и принимает дескриптор SIFT на результирующем параллелограмме. Информация о цвете используется также для улучшения различения по сравнению с одними только функциями SIFT.
Затем, учитывая количество изображений объекта с камеры (24 в документе), метод строит трехмерную модель объекта, содержащую трехмерное пространственное положение и ориентацию каждой функции. Поскольку количество видов объекта велико, обычно каждая функция присутствует на нескольких смежных видах. Центральные точки таких совпадающих элементов соответствуют, а обнаруженные элементы выровнены по доминирующему направлению градиента, поэтому точки в (1, 0) в локальной системе координат параллелограмма элементов также соответствуют, как и точки (0, 1) в локальных координатах параллелограмма. Таким образом, для каждой пары совпадающих объектов в соседних видах известны соответствия трех точечных пар. При наличии, по крайней мере, двух признаков соответствия, многовидовая аффинная структура из алгоритма движения (см. [Tomasi and Kanade 1992]) может использоваться для построения оценки положений точек (с точностью до произвольного аффинного преобразования). В статье Rothganger et al. поэтому выбирает два смежных вида, использует метод, подобный RANSAC, для выбора двух соответствующих пар функций и добавляет новые функции в частичную модель, построенную RANSAC, если они находятся под ошибкой. Таким образом, для любой данной пары смежных видов алгоритм создает частичную модель всех функций, видимых в обоих видах.
Чтобы создать единую модель, в документе берется самая большая частичная модель и постепенно выравниваются все меньшие частичные модели. Глобальная минимизация используется для уменьшения ошибки, затем используется евклидово обновление для изменения положений элементов модели с уникальных трехмерных координат до аффинных преобразований в трехмерные координаты, уникальные вплоть до евклидова движения . В конце этого шага создается модель целевого объекта, состоящая из функций, спроецированных в общее трехмерное пространство.
Чтобы распознать объект в произвольном входном изображении, бумага обнаруживает особенности, а затем использует RANSAC для поиска матрицы аффинной проекции, которая наилучшим образом соответствует унифицированной объектной модели для 2D-сцены. Если этот подход RANSAC имеет достаточно низкую ошибку, то в случае успеха алгоритм как распознает объект, так и дает позу объекта в терминах аффинной проекции. В предполагаемых условиях этот метод обычно достигает уровня распознавания около 95%.
Рекомендации
- Мурас, Х. и С. К. Наяр: 1995, Визуальное обучение и распознавание трехмерных объектов по внешнему виду . Международный журнал компьютерного зрения 14, 5–24. [1]
- Селинджер, А. и Р. Нельсон: 1999, Иерархия перцептивного группирования для распознавания трехмерных объектов на основе внешнего вида. Компьютерное зрение и понимание изображений 76 (1), 83–92. [2]
- Ротгангер, Ф; С. Лазебник, К. Шмид и Дж. Понсе: 2004. Моделирование и распознавание трехмерных объектов с использованием локальных аффинно-инвариантных дескрипторов изображений и многоракурсных пространственных ограничений , ICCV. [3]
- Лоу, Д.: 2004, Отличительные особенности изображения от масштабно-инвариантных ключевых точек. Международный журнал компьютерного зрения. В прессе. [4]
- Томаси, К. и Т. Канаде: 1992, Форма и движение из потоков изображений: метод факторизации. Международный журнал компьютерного зрения 9 (2), 137–154. [5]