Распознавание 3D-объектов

В области компьютерного зрения , 3D распознавание объектов включает в себя распознавание и определение 3D информации, такие как позы , объем или форма, пользовательские объекты подобранного 3D на фотографиях или диапазон сканирования . Обычно пример распознаваемого объекта представляется системе технического зрения в контролируемой среде, а затем для произвольного ввода, такого как видеопоток , система определяет местонахождение ранее представленного объекта. Это можно сделать как в автономном режиме, так и в режиме реального времени . Эти алгоритмыдля решения этой проблемы они специализируются на обнаружении одного предварительно идентифицированного объекта и могут быть противопоставлены алгоритмам, которые работают с общими классами объектов, такими как системы распознавания лиц или универсальное трехмерное распознавание объектов. Из-за низкой стоимости и простоты получения фотографий значительный объем исследований был посвящен распознаванию трехмерных объектов на фотографиях.

Распознавание 3D-объектов на фотографиях

Способ распознавания 3D-объекта зависит от свойств объекта. Для простоты многие существующие алгоритмы сосредоточены на распознавании твердых объектов, состоящих из одной части, то есть объектов, пространственное преобразование которых является евклидовым движением . К проблеме были применены два общих подхода: подходы к распознаванию образов используют низкоуровневую информацию о внешнем виде изображения для определения местоположения объекта, в то время как геометрические подходы, основанные на признаках, создают модель для распознаваемого объекта и сопоставляют модель с фотографией.

Подходы к распознаванию образов

Эти методы используют информацию о внешнем виде, собранную из предварительно захваченных или предварительно вычисленных проекций объекта, чтобы соответствовать объекту в потенциально загроможденной сцене. Однако они не принимают во внимание трехмерные геометрические ограничения объекта во время сопоставления и, как правило, также не обрабатывают окклюзию, а также подходы на основе функций. См. [Murase and Nayar 1995] и [Selinger and Nelson 1999].

Геометрические подходы на основе признаков

Пример обнаруженного объекта на изображении. Синий указывает на центр объекта, красный эллипс указывает на характерный масштаб, идентифицированный детектором объекта, а зеленый параллелограмм построен на основе координат эллипса согласно [Lowe 2004].

Подходы, основанные на признаках, хорошо подходят для объектов, которые имеют отличительные особенности . До сих пор успешно распознавались объекты с хорошими краевыми характеристиками или каплями ; например алгоритмы обнаружения, см. детектор аффинной области Харриса и SIFT , соответственно. Из-за отсутствия соответствующих детекторов признаков, объекты без текстурированной гладкой поверхности в настоящее время не могут обрабатываться с помощью этого подхода.

Распознаватели объектов на основе признаков обычно работают путем предварительного захвата ряда фиксированных представлений объекта, который необходимо распознать, извлечения признаков из этих представлений, а затем в процессе распознавания сопоставления этих признаков со сценой и применения геометрических ограничений.

В качестве примера прототипной системы, использующей этот подход, мы представим схему метода, используемого [Rothganger et al. 2004], но опущены некоторые детали. Метод начинается с предположения, что объекты подвергаются глобально жестким преобразованиям. Поскольку гладкие поверхности являются локально плоскими, аффинно-инвариантные элементы подходят для сопоставления: бумага обнаруживает интересующие области эллиптической формы, используя как кромочные, так и каплевидные элементы, и, согласно [Lowe 2004], находит доминирующее направление градиента ellipse, преобразует эллипс в параллелограмм и принимает дескриптор SIFT на результирующем параллелограмме. Информация о цвете используется также для улучшения различения по сравнению с одними только функциями SIFT.

Частичные модели объектов, спроецированные в 3D, построенные из ближайших видов плюшевого мишки. Взято из [Rothganger et al. 2004].

Затем, учитывая количество изображений объекта с камеры (24 в документе), метод строит трехмерную модель объекта, содержащую трехмерное пространственное положение и ориентацию каждой функции. Поскольку количество видов объекта велико, обычно каждая функция присутствует на нескольких смежных видах. Центральные точки таких совпадающих элементов соответствуют, а обнаруженные элементы выровнены по доминирующему направлению градиента, поэтому точки в (1, 0) в локальной системе координат параллелограмма элементов также соответствуют, как и точки (0, 1) в локальных координатах параллелограмма. Таким образом, для каждой пары совпадающих объектов в соседних видах известны соответствия трех точечных пар. При наличии, по крайней мере, двух признаков соответствия, многовидовая аффинная структура из алгоритма движения (см. [Tomasi and Kanade 1992]) может использоваться для построения оценки положений точек (с точностью до произвольного аффинного преобразования). В статье Rothganger et al. поэтому выбирает два смежных вида, использует метод, подобный RANSAC, для выбора двух соответствующих пар функций и добавляет новые функции в частичную модель, построенную RANSAC, если они находятся под ошибкой. Таким образом, для любой данной пары смежных видов алгоритм создает частичную модель всех функций, видимых в обоих видах.

Окончательная объединенная модель характеристик плюшевого мишки после евклидова обновления. Для распознавания эта модель сравнивается с фотографией места происшествия с помощью RANSAC. Взято из [Rothganger et al. 2004].

Чтобы создать единую модель, в документе берется самая большая частичная модель и постепенно выравниваются все меньшие частичные модели. Глобальная минимизация используется для уменьшения ошибки, затем используется евклидово обновление для изменения положений элементов модели с уникальных трехмерных координат до аффинных преобразований в трехмерные координаты, уникальные вплоть до евклидова движения . В конце этого шага создается модель целевого объекта, состоящая из функций, спроецированных в общее трехмерное пространство.

Чтобы распознать объект в произвольном входном изображении, бумага обнаруживает особенности, а затем использует RANSAC для поиска матрицы аффинной проекции, которая наилучшим образом соответствует унифицированной объектной модели для 2D-сцены. Если этот подход RANSAC имеет достаточно низкую ошибку, то в случае успеха алгоритм как распознает объект, так и дает позу объекта в терминах аффинной проекции. В предполагаемых условиях этот метод обычно достигает уровня распознавания около 95%.

Распознавание 3D-объектов