Следующий план представляет собой обзор и тематическое руководство по распознаванию объектов:
Распознавание объектов - технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеопоследовательности. Люди распознают множество объектов на изображениях с небольшими усилиями, несмотря на то, что изображение объектов может несколько отличаться в разных точках обзора, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты для обзора. Эта задача по-прежнему остается проблемой для систем компьютерного зрения. Многие подходы к этой задаче были реализованы за несколько десятилетий.
Подходы, основанные на объектных моделях, подобных САПР
- Обнаружение края
- Первоначальный эскиз
- Марр, Мохан и Неватия [1]
- Лоу
- Оливье Фожерас
Распознавание по частям
- Обобщенные цилиндры ( Томас Бинфорд )
- Джеонс ( Ирвинг Бидерман )
- Дикинсон, Форсайт и Понсе
Методы, основанные на внешнем виде
- Используйте образцы изображений (называемые шаблонами или образцами) объектов для распознавания
- Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления взгляда
- Изменения в размере / форме
- Единичный экземпляр вряд ли получится надежно. Однако невозможно представить все образы объекта.
Совмещение краев
- Использует методы обнаружения краев, такие как обнаружение краев Canny , для поиска краев.
- Изменения освещения и цвета обычно не сильно влияют на края изображения.
- Стратегия:
- Обнаружение краев в шаблоне и изображении
- Сравните изображения краев, чтобы найти шаблон
- Необходимо учитывать диапазон возможных позиций шаблона
- Размеры:
- Хорошо - посчитайте количество пересекающихся краев. Не устойчив к изменениям формы
- Лучше - подсчитать количество пикселей края шаблона с некоторым расстоянием до края в поисковом изображении
- Наилучшее - определить вероятностное распределение расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение
Разделяй и властвуй поиск
- Стратегия:
- Рассматривайте все позиции как набор (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшем положении в ячейке
- Если граница слишком велика, обрежьте ячейку
- Если граница не слишком велика, разделите ячейку на подъячейки и рекурсивно попробуйте каждую подъячейку.
- Процесс останавливается, когда ячейка «достаточно мала»
- В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
- В поисках границы:
- Чтобы найти нижнюю границу наилучшего результата, посмотрите на оценку для позиции шаблона, представленной центром ячейки.
- Вычтите максимальное изменение из «центрального» положения для любой другой позиции в ячейке (происходит в углах ячейки).
- Сложности возникают из-за определения границ расстояния
Соответствие оттенков серого
- Края (в основном) устойчивы к изменениям освещения, однако они отбрасывают много информации.
- Необходимо вычислять расстояние до пикселя как функцию как от положения пикселя, так и от его интенсивности
- Может применяться и к цвету
Согласование градиента
- Еще один способ быть устойчивым к изменениям освещения, не теряя при этом большого количества информации, - это сравнить градиенты изображения.
- Сопоставление выполняется как сопоставление изображений в оттенках серого
- Простая альтернатива: использовать (нормализованную) корреляцию
Гистограммы ответов рецептивного поля
- Избегает явных точечных соответствий
- Отношения между разными точками изображения, неявно закодированные в ответах рецептивного поля
- Суэйн и Баллард (1991), [2] Шиле и Кроули (2000), [3] Линде и Линдеберг (2004, 2012) [4] [5]
Большие модельные базы
- Один из подходов к эффективному поиску в базе данных конкретного изображения с использованием собственных векторов шаблонов (называемых собственными гранями )
- Базы моделей - это набор геометрических моделей объектов, которые следует распознать.
Функциональные методы
- поиск используется для поиска возможных совпадений между характеристиками объекта и характеристиками изображения .
- Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
- методы, извлекающие особенности из объектов, которые нужно распознать, и изображений, которые нужно найти.
- пятна на поверхности
- углы
- линейные края
Деревья интерпретации
- Метод поиска возможных совпадений - это поиск по дереву.
- Каждый узел в дереве представляет собой набор совпадений.
- Корневой узел представляет собой пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, у которых нет совпадений
- Узлы «обрезаются», когда набор совпадений невозможен.
- У обрезанного узла нет детей
- Исторически значимый и до сих пор используется, но реже
Выдвинуть гипотезу и проверить
- Главная идея:
- Предположите соответствие между набором характеристик изображения и набором характеристик объекта.
- Затем используйте это, чтобы сгенерировать гипотезу о проекции из кадра координат объекта на кадр изображения.
- Используйте эту гипотезу проекции для создания визуализации объекта. Этот шаг обычно известен как обратная проекция.
- Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу
- Получение гипотезы:
- Есть множество различных способов создания гипотез.
- Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации - позе - для объекта.
- Используйте геометрические ограничения
- Постройте соответствие небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
- Три основных подхода:
- Получение гипотез по последовательности поз
- Получение гипотез с помощью кластеризации поз
- Получение гипотез с помощью инвариантов
- Поиск по расходам, который также является избыточным, но может быть улучшен с помощью рандомизации и / или группировки
- Рандомизация
- Изучение небольших наборов функций изображения до тех пор, пока вероятность отсутствия объекта не станет небольшой.
- Для каждого набора элементов изображения необходимо учитывать все возможные совпадающие наборы элементов модели.
- Формула:
- (1 - W c ) k = Z
- W = доля "хороших" точек изображения (w ~ m / n)
- c = необходимое количество соответствий
- k = количество испытаний
- Z = вероятность того, что каждое испытание использует одно (или несколько) неверных соответствий
- Группировка
- Если мы сможем определить группы точек, которые, вероятно, будут исходить от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.
- Рандомизация
Последовательность позы
- Также называется выравниванием, поскольку объект выравнивается по изображению.
- Соответствия между элементами изображения и элементами модели не являются независимыми - геометрические ограничения
- Небольшое количество соответствий дает положение объекта - остальные должны согласовываться с этим.
- Главная идея:
- Если мы предположим соответствие между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом отрендерить остальную часть объекта).
- Стратегия:
- Создавайте гипотезы, используя небольшое количество соответствий (например, тройки точек для распознавания 3D)
- Проецируйте другие элементы модели в изображение ( бэкпроект ) и проверьте дополнительные соответствия
- Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта.
Кластеризация поз
- Главная идея:
- Каждый объект приводит к множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
- Проголосуйте за позу. Используйте массив аккумуляторов, представляющий пространство позы для каждого объекта.
- По сути, это преобразование Хафа.
- Стратегия:
- Для каждого объекта настройте массив аккумуляторов, который представляет пространство позы - каждый элемент в массиве аккумуляторов соответствует «ведру» в пространстве позы.
- Затем возьмите каждую группу кадров изображения и предположите соответствие между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта в значении позы.
- Если в массиве аккумуляторов любого объекта имеется большое количество голосов, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
- Доказательства можно проверить с помощью метода верификации.
- Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, так как каждый набор дает небольшое количество возможных поз объекта.
- Улучшение
- Шумостойкость этого метода можно улучшить, если не считать голоса за объекты в позах, в которых голосование явно ненадежно.
- § Например, в случаях, когда объект находился в этой позе, группа рамок объекта была бы невидимой.
- Этих улучшений достаточно, чтобы получить работающие системы.
Инвариантность
- Есть геометрические свойства, инвариантные к преобразованиям камеры.
- Легче всего разрабатывается для изображений плоских объектов, но может применяться и в других случаях.
Геометрическое хеширование
- Алгоритм, использующий геометрические инварианты для голосования за объектные гипотезы.
- Подобно кластеризации позы, но вместо голосования по позе мы теперь голосуем по геометрии.
- Методика, первоначально разработанная для сопоставления геометрических элементов (неоткалиброванные аффинные виды плоских моделей) с базой данных таких элементов.
- Широко используется для сопоставления с образцом, CAD / CAM и медицинской визуализации.
- Сложно подобрать размер ведер
- Трудно быть уверенным в том, что означает «достаточно». Поэтому может возникнуть опасность засорения стола.
Масштабно-инвариантное преобразование признаков (SIFT)
- Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
- Объект распознается в новом изображении путем индивидуального сравнения каждого признака из нового изображения с этой базой данных и поиска подходящих подходящих признаков на основе евклидова расстояния их векторов признаков.
- Лоу (2004) [6] [7]
Ускоренные надежные функции (SURF)
- Надежный детектор и дескриптор изображений
- Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
- На основе сумм приближенных откликов двумерных вейвлетов Хаара и эффективного использования интегральных изображений.
- Bay et al. (2008) [8]
Мешок представлений слов
Генетический алгоритм
Генетические алгоритмы могут работать без предварительного знания определенного набора данных и могут разрабатывать процедуры распознавания без вмешательства человека. В рамках недавнего проекта удалось достичь 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей от Caltech и 99,4-процентной точности на наборах данных изображений видов рыб. [9] [10]
Другие подходы
- Распознавание и реконструкция 3D-объектов [11]
- Биологически вдохновленное распознавание объектов
- Искусственные нейронные сети и глубокое обучение, особенно сверточные нейронные сети
- Контекст [12] [13]
- Явные и неявные 3D-объектные модели
- Быстрая индексация [14]
- Представления глобальной сцены [12]
- Гистограммы градиента
- Стохастические грамматики [15]
- Внутриклассовое трансферное обучение
- Категоризация объектов из поиска изображений
- Отражение [16]
- Форма из затенения [17]
- Соответствие шаблонов
- Текстура [18]
- Тематические модели [13]
- Обучение без учителя
- Обнаружение на основе окна
- Модель деформируемой детали
- Распределение Бингема [19]
Приложения
Методы распознавания объектов имеют следующие применения:
- Распознавание активности [20]
- Автоматическая аннотация изображения [21] [22]
- Автоматическое распознавание цели
- Android Eyes - распознавание объектов [23]
- Компьютерная диагностика [24]
- Панорамы изображений [25]
- Водяные знаки изображения [26]
- Глобальная локализация роботов [27]
- Распознавание лиц [28]
- Оптическое распознавание символов [29]
- Контроль качества производства [30]
- Поиск изображений на основе содержимого [31]
- Подсчет и мониторинг объектов [32]
- Автоматизированные парковочные системы [33]
- Визуальное позиционирование и отслеживание [34]
- Стабилизация видео [35]
- Обнаружение пешеходов
Обзоры
- Даниилидес и Эклунд, Эдельман.
- Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ОБСЛЕДОВАНИИ ОБЪЕКТА» (PDF) . Технический отчет . ICG-TR-01/08.
Смотрите также
- Гистограмма ориентированных градиентов
- Сверточная нейронная сеть
- OpenCV
- Масштабно-инвариантное преобразование признаков (SIFT)
- Обнаружение объекта
- Статья в Scholarpedia о масштабно-инвариантном преобразовании функций и методах распознавания связанных объектов
- СЕРФ
- Соответствие шаблонов
- Встроенная функция канала
- Списки
- Список тем компьютерного зрения
- Список новых технологий
- Схема искусственного интеллекта
Заметки
- ^ Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация для сегментации и описания сцены» (PDF) . IEEE Trans Pat Anal Mach Intell .
- ^ MJ Суэйн и Д.Х. Баллард «Цветовая индексация», Международный журнал компьютерного зрения, 7: 1, 11-32, 1991.
- ^ B. Schiele и JL Crowley "Распознавание без соответствия с использованием многомерных гистограмм рецептивного поля", International Journal of Computer Vision, 36: 1, 31-50, 2000
- ^ О. Линде и Т. Линдеберг "Распознавание объектов с использованием составных гистограмм рецептивного поля более высокой размерности", Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004.
- ^ О. Линде и Т. Линдеберг «Составленные гистограммы сложных сигналов: исследование информационного содержания в дескрипторах изображения на основе рецептивного поля для распознавания объектов», Computer Vision and Image Understanding, 116: 4, 538-560, 2012.
- ^ Лоу, Д.Г., "Отличительные особенности изображения от масштабно-инвариантных ключевых точек", Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
- ^ Линдеберг, Тони (2012). «Масштабно-инвариантное преобразование признаков» . Scholarpedia . 7 (5): 10491. DOI : 10,4249 / scholarpedia.10491 .
- ^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . DOI : 10.1016 / j.cviu.2007.09.014 .
- ^ «Новый алгоритм распознавания объектов обучается на лету» . Gizmag.com . Проверено 21 января 2014 .
- ^ Lillywhite, K .; Ли, диджей; Типпетс, В .; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. DOI : 10.1016 / j.patcog.2013.06.002 .
- ^ Браун, Мэтью и Дэвид Г. Лоу. « Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных ». 3-D цифровое изображение и моделирование, 2005. 3DIM 2005. Пятая международная конференция по. IEEE, 2005.
- ^ a b Олива, Од и Антонио Торральба. « Роль контекста в распознавании объектов ». Тенденции в когнитивных науках 11.12 (2007): 520-527.
- ^ а б Ню, Чжэньсин и др. « Контекстно-зависимая тематическая модель для распознавания сцены ». Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE, 2012.
- ^ Штейн, Фритьоф и Жерар Медиони. « Структурная индексация: эффективное распознавание трехмерных объектов ». IEEE Transactions по анализу шаблонов и машинному анализу 2 (1992): 125-145.
- ↑ Чжу, Сон-Чун и Дэвид Мамфорд. « Стохастическая грамматика изображений ». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
- ^ Наяр, Шри К. и Рууд М. Болле. « Распознавание объектов на основе отражения ». Международный журнал компьютерного зрения 17.3 (1996): 219-240.
- ^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. « Распознавание объектов с помощью закраски по форме ». IEEE Transactions по анализу шаблонов и машинному анализу 23.5 (2001): 535-542.
- ^ Шоттон, Джейми и др. « Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста ». Международный журнал компьютерного зрения 81.1 (2009): 2-23.
- ^ «Лучшее зрение робота» . KurzweilAI . Проверено 9 октября 2013 .
- ^ Донахью, Джеффри и др. « Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015 г.
- ^ Karpathy, Андрей, и Ли Фей Фей. « Глубокие визуально-семантические согласования для создания описаний изображений ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015 г.
- ^ П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Труды Европейской конференции по компьютерному зрению . С. 97–112. Архивировано из оригинала на 2005-03-05.
- ^ «Андроид глазами компьютерного зрения» .Марта Дж. Фарах «Визуальная агнозия», Компьютерное зрение, вычислительная когнитивная нейробиология, MIT Press, 2011-05-01, страницы 760-781, ISSN 1468-4233 [1] [ мертвая ссылка ]
- ^ Эстева, Андре и др. « Классификация рака кожи на уровне дерматологов с использованием глубоких нейронных сетей ». Nature 542.7639 (2017): 115.
- ^ Браун, М., и Лоу, Д.Г., " Распознавание панорам ", ICCV, стр. 1218, Девятая Международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.
- ^ Ли, Л., Го, Б., и Шао, К., " Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования признаков и моментов Цернике ", Chinese Optics Letters, Volume 5, Issue 6, pp. 332-335, 2007 .
- ^ Се, С., Лоу, Д.Г., и Литтл, Дж. Дж., « Глобальная локализация и отображение мобильных роботов на основе зрения », IEEE Transactions on Robotics, 21, 3 (2005), стр. 364-375.
- ^ Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджио, « О роли объектно-ориентированных функций для распознавания объектов реального мира в биологическом видении ». Лаборатория искусственного интеллекта и Департамент мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследования мозга Мак-Говер, Кембридж, Массачусетс, США
- ^ Энн Permaloff и Карл Графтон, " Optical Character Recognition " Политическая наука и политика, Vol. 25, No. 3 (сентябрь 1992 г.), стр. 523-531
- ^ Кристиан Демант, Бернд Штрейхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества в производстве». Краткое описание распознавания объектов в Google Книгах.
- ^ Нуно Васконселос " Индексирование изображений с помощью иерархий смеси ". Архивировано 18января2011 г. в Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
- ^ Хейккиля, Янне; Сильвен, Олли (2004). «Система мониторинга велосипедистов и пешеходов в реальном времени». Вычисления изображений и зрения . 22 (7): 563–570. DOI : 10.1016 / j.imavis.2003.09.010 .
- ^ Хо Ги Чон, Дон Сок Ким, Пал Джу Юн, Джайхи Ким, « Распознавание маркировки парковочных мест на основе анализа структуры для полуавтоматической системы парковки » Структурное, синтаксическое и статистическое распознавание образов, Springer Berlin / Heidelberg, 2006
- ^ SK Nayar, H. Murase, и SA Nene, " Обучение, позиционирование и отслеживание визуального внешнего вида " Proc. IEEE Intl. Конф. по робототехнике и автоматизации, Сан-Диего, май 1994 г.
- ^ Лю, Ф .; Gleicher, M .; Jin, H .; Агарвала, А. (2009). «Деформации с сохранением содержимого для стабилизации 3D-видео». Транзакции ACM на графике . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . DOI : 10.1145 / 1531326.1531350 .
Рекомендации
- Элгаммал, Ахмед "CS 534: Распознавание на основе трехмерной модели компьютерного зрения" , факультет компьютерных наук, Университет Рутгерса;
- Хартли, Ричард и Зиссерман, Эндрю "Многоканальная геометрия в компьютерном зрении" , Cambridge Press, 2000, ISBN 0-521-62304-9 .
- Рот, Питер М. и Винтер, Мартин "Обзор методов распознавания объектов на основе внешнего вида", Технический отчет ICG-TR-01/08 , Inst. компьютерной графики и зрения, Технологический университет Граца, Австрия; 15 января 2008 г.
- Коллинз, Роберт "Лекция 31: Распознавание объектов: ключи SIFT" , CSE486, Penn State
- IPRG Image Processing - группа открытых онлайн-исследований
- Кристиан Сегеди , Александр Тошев и Думитру Эрхан . Глубокие нейронные сети для обнаружения объектов . Достижения в системах обработки нейронной информации 26 , 2013. стр. 2553–2561.