Схема распознавания объекта

Следующий план представляет собой обзор и тематическое руководство по распознаванию объектов:

Распознавание объектов - технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеопоследовательности. Люди распознают множество объектов на изображениях с небольшими усилиями, несмотря на то, что изображение объектов может несколько отличаться в разных точках обзора, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты для обзора. Эта задача по-прежнему остается проблемой для систем компьютерного зрения. Многие подходы к этой задаче были реализованы за несколько десятилетий.

Подходы, основанные на объектных моделях, подобных САПР

Распознавание по частям

Обобщенные цилиндры ( Томас Бинфорд )
Джеонс ( Ирвинг Бидерман )
Дикинсон, Форсайт и Понсе

Методы, основанные на внешнем виде

Используйте образцы изображений (называемые шаблонами или образцами) объектов для распознавания
Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления взгляда
- Изменения в размере / форме
Единичный экземпляр вряд ли получится надежно. Однако невозможно представить все образы объекта.

Совмещение краев

Использует методы обнаружения краев, такие как обнаружение краев Canny , для поиска краев.
Изменения освещения и цвета обычно не сильно влияют на края изображения.
Стратегия:
1. Обнаружение краев в шаблоне и изображении
2. Сравните изображения краев, чтобы найти шаблон
3. Необходимо учитывать диапазон возможных позиций шаблона
Размеры:
- Хорошо - посчитайте количество пересекающихся краев. Не устойчив к изменениям формы
- Лучше - подсчитать количество пикселей края шаблона с некоторым расстоянием до края в поисковом изображении
- Наилучшее - определить вероятностное распределение расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение

Разделяй и властвуй поиск

Стратегия:
- Рассматривайте все позиции как набор (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшем положении в ячейке
- Если граница слишком велика, обрежьте ячейку
- Если граница не слишком велика, разделите ячейку на подъячейки и рекурсивно попробуйте каждую подъячейку.
- Процесс останавливается, когда ячейка «достаточно мала»
В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
В поисках границы:
- Чтобы найти нижнюю границу наилучшего результата, посмотрите на оценку для позиции шаблона, представленной центром ячейки.
- Вычтите максимальное изменение из «центрального» положения для любой другой позиции в ячейке (происходит в углах ячейки).
Сложности возникают из-за определения границ расстояния

Соответствие оттенков серого

Края (в основном) устойчивы к изменениям освещения, однако они отбрасывают много информации.
Необходимо вычислять расстояние до пикселя как функцию как от положения пикселя, так и от его интенсивности
Может применяться и к цвету

Согласование градиента

Еще один способ быть устойчивым к изменениям освещения, не теряя при этом большого количества информации, - это сравнить градиенты изображения.
Сопоставление выполняется как сопоставление изображений в оттенках серого
Простая альтернатива: использовать (нормализованную) корреляцию

Гистограммы ответов рецептивного поля

Избегает явных точечных соответствий
Отношения между разными точками изображения, неявно закодированные в ответах рецептивного поля
Суэйн и Баллард (1991), ^[2] Шиле и Кроули (2000), ^[3] Линде и Линдеберг (2004, 2012) ^[4]^[5]

Большие модельные базы

Один из подходов к эффективному поиску в базе данных конкретного изображения с использованием собственных векторов шаблонов (называемых собственными гранями )
Базы моделей - это набор геометрических моделей объектов, которые следует распознать.

Функциональные методы

поиск используется для поиска возможных совпадений между характеристиками объекта и характеристиками изображения .
Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
методы, извлекающие особенности из объектов, которые нужно распознать, и изображений, которые нужно найти.
- пятна на поверхности
- углы
- линейные края

Деревья интерпретации

Метод поиска возможных совпадений - это поиск по дереву.
Каждый узел в дереве представляет собой набор совпадений.
- Корневой узел представляет собой пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, у которых нет совпадений
Узлы «обрезаются», когда набор совпадений невозможен.
- У обрезанного узла нет детей
Исторически значимый и до сих пор используется, но реже

Выдвинуть гипотезу и проверить

Главная идея:
- Предположите соответствие между набором характеристик изображения и набором характеристик объекта.
- Затем используйте это, чтобы сгенерировать гипотезу о проекции из кадра координат объекта на кадр изображения.
- Используйте эту гипотезу проекции для создания визуализации объекта. Этот шаг обычно известен как обратная проекция.
- Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу
Получение гипотезы:
- Есть множество различных способов создания гипотез.
- Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации - позе - для объекта.
- Используйте геометрические ограничения
- Постройте соответствие небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
Три основных подхода:
- Получение гипотез по последовательности поз
- Получение гипотез с помощью кластеризации поз
- Получение гипотез с помощью инвариантов
Поиск по расходам, который также является избыточным, но может быть улучшен с помощью рандомизации и / или группировки
- Рандомизация
  - Изучение небольших наборов функций изображения до тех пор, пока вероятность отсутствия объекта не станет небольшой.
  - Для каждого набора элементов изображения необходимо учитывать все возможные совпадающие наборы элементов модели.
  - Формула:
    (1 - W ^c ) ^k = Z
    - W = доля "хороших" точек изображения (w ~ m / n)
    - c = необходимое количество соответствий
    - k = количество испытаний
    - Z = вероятность того, что каждое испытание использует одно (или несколько) неверных соответствий
- Группировка
  - Если мы сможем определить группы точек, которые, вероятно, будут исходить от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.

Последовательность позы

Также называется выравниванием, поскольку объект выравнивается по изображению.
Соответствия между элементами изображения и элементами модели не являются независимыми - геометрические ограничения
Небольшое количество соответствий дает положение объекта - остальные должны согласовываться с этим.
Главная идея:
- Если мы предположим соответствие между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом отрендерить остальную часть объекта).
Стратегия:
- Создавайте гипотезы, используя небольшое количество соответствий (например, тройки точек для распознавания 3D)
- Проецируйте другие элементы модели в изображение ( бэкпроект ) и проверьте дополнительные соответствия
Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта.

Кластеризация поз

Главная идея:
- Каждый объект приводит к множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
- Проголосуйте за позу. Используйте массив аккумуляторов, представляющий пространство позы для каждого объекта.
- По сути, это преобразование Хафа.
Стратегия:
- Для каждого объекта настройте массив аккумуляторов, который представляет пространство позы - каждый элемент в массиве аккумуляторов соответствует «ведру» в пространстве позы.
- Затем возьмите каждую группу кадров изображения и предположите соответствие между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта в значении позы.
- Если в массиве аккумуляторов любого объекта имеется большое количество голосов, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
- Доказательства можно проверить с помощью метода верификации.
Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, так как каждый набор дает небольшое количество возможных поз объекта.
Улучшение
- Шумостойкость этого метода можно улучшить, если не считать голоса за объекты в позах, в которых голосование явно ненадежно.
§ Например, в случаях, когда объект находился в этой позе, группа рамок объекта была бы невидимой.
- Этих улучшений достаточно, чтобы получить работающие системы.

Инвариантность

Есть геометрические свойства, инвариантные к преобразованиям камеры.
Легче всего разрабатывается для изображений плоских объектов, но может применяться и в других случаях.

Геометрическое хеширование

Алгоритм, использующий геометрические инварианты для голосования за объектные гипотезы.
Подобно кластеризации позы, но вместо голосования по позе мы теперь голосуем по геометрии.
Методика, первоначально разработанная для сопоставления геометрических элементов (неоткалиброванные аффинные виды плоских моделей) с базой данных таких элементов.
Широко используется для сопоставления с образцом, CAD / CAM и медицинской визуализации.
Сложно подобрать размер ведер
Трудно быть уверенным в том, что означает «достаточно». Поэтому может возникнуть опасность засорения стола.

Масштабно-инвариантное преобразование признаков (SIFT)

Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
Объект распознается в новом изображении путем индивидуального сравнения каждого признака из нового изображения с этой базой данных и поиска подходящих подходящих признаков на основе евклидова расстояния их векторов признаков.
Лоу (2004) ^[6]^[7]

Ускоренные надежные функции (SURF)

Надежный детектор и дескриптор изображений
Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
На основе сумм приближенных откликов двумерных вейвлетов Хаара и эффективного использования интегральных изображений.
Bay et al. (2008) ^[8]

Мешок представлений слов

Генетический алгоритм

Генетические алгоритмы могут работать без предварительного знания определенного набора данных и могут разрабатывать процедуры распознавания без вмешательства человека. В рамках недавнего проекта удалось достичь 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей от Caltech и 99,4-процентной точности на наборах данных изображений видов рыб. ^[9]^[10]

Другие подходы

Распознавание и реконструкция 3D-объектов ^[11]
Биологически вдохновленное распознавание объектов
Искусственные нейронные сети и глубокое обучение, особенно сверточные нейронные сети
Контекст ^[12]^[13]
Явные и неявные 3D-объектные модели
Быстрая индексация ^[14]
Представления глобальной сцены ^[12]
Гистограммы градиента
Стохастические грамматики ^[15]
Внутриклассовое трансферное обучение
Категоризация объектов из поиска изображений
Отражение ^[16]
Форма из затенения ^[17]
Соответствие шаблонов
Текстура ^[18]
Тематические модели ^[13]
Обучение без учителя
Обнаружение на основе окна
Модель деформируемой детали
Распределение Бингема ^[19]

Приложения

Методы распознавания объектов имеют следующие применения:

Распознавание активности ^[20]
Автоматическая аннотация изображения ^[21]^[22]
Автоматическое распознавание цели
Android Eyes - распознавание объектов ^[23]
Компьютерная диагностика ^[24]
Панорамы изображений ^[25]
Водяные знаки изображения ^[26]
Глобальная локализация роботов ^[27]
Распознавание лиц ^[28]
Оптическое распознавание символов ^[29]
Контроль качества производства ^[30]
Поиск изображений на основе содержимого ^[31]
Подсчет и мониторинг объектов ^[32]
Автоматизированные парковочные системы ^[33]
Визуальное позиционирование и отслеживание ^[34]
Стабилизация видео ^[35]
Обнаружение пешеходов

Обзоры

Даниилидес и Эклунд, Эдельман.
Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ОБСЛЕДОВАНИИ ОБЪЕКТА» (PDF) . Технический отчет . ICG-TR-01/08.

Смотрите также

Гистограмма ориентированных градиентов
Сверточная нейронная сеть
OpenCV
Масштабно-инвариантное преобразование признаков (SIFT)
Обнаружение объекта
Статья в Scholarpedia о масштабно-инвариантном преобразовании функций и методах распознавания связанных объектов
СЕРФ
Соответствие шаблонов
Встроенная функция канала

Списки

Список тем компьютерного зрения
Список новых технологий
Схема искусственного интеллекта

Заметки

^ Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация для сегментации и описания сцены» (PDF) . IEEE Trans Pat Anal Mach Intell .
^ MJ Суэйн и Д.Х. Баллард «Цветовая индексация», Международный журнал компьютерного зрения, 7: 1, 11-32, 1991.
^ B. Schiele и JL Crowley "Распознавание без соответствия с использованием многомерных гистограмм рецептивного поля", International Journal of Computer Vision, 36: 1, 31-50, 2000
^ О. Линде и Т. Линдеберг "Распознавание объектов с использованием составных гистограмм рецептивного поля более высокой размерности", Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004.
^ О. Линде и Т. Линдеберг «Составленные гистограммы сложных сигналов: исследование информационного содержания в дескрипторах изображения на основе рецептивного поля для распознавания объектов», Computer Vision and Image Understanding, 116: 4, 538-560, 2012.
^ Лоу, Д.Г., "Отличительные особенности изображения от масштабно-инвариантных ключевых точек", Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
^ Линдеберг, Тони (2012). «Масштабно-инвариантное преобразование признаков» . Scholarpedia . 7 (5): 10491. DOI : 10,4249 / scholarpedia.10491 .
^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . DOI : 10.1016 / j.cviu.2007.09.014 .
^ «Новый алгоритм распознавания объектов обучается на лету» . Gizmag.com . Проверено 21 января 2014 .
^ Lillywhite, K .; Ли, диджей; Типпетс, В .; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. DOI : 10.1016 / j.patcog.2013.06.002 .
^ Браун, Мэтью и Дэвид Г. Лоу. « Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных ». 3-D цифровое изображение и моделирование, 2005. 3DIM 2005. Пятая международная конференция по. IEEE, 2005.
^ a b Олива, Од и Антонио Торральба. « Роль контекста в распознавании объектов ». Тенденции в когнитивных науках 11.12 (2007): 520-527.
^ а б Ню, Чжэньсин и др. « Контекстно-зависимая тематическая модель для распознавания сцены ». Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE, 2012.
^ Штейн, Фритьоф и Жерар Медиони. « Структурная индексация: эффективное распознавание трехмерных объектов ». IEEE Transactions по анализу шаблонов и машинному анализу 2 (1992): 125-145.
↑ Чжу, Сон-Чун и Дэвид Мамфорд. « Стохастическая грамматика изображений ». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
^ Наяр, Шри К. и Рууд М. Болле. « Распознавание объектов на основе отражения ». Международный журнал компьютерного зрения 17.3 (1996): 219-240.
^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. « Распознавание объектов с помощью закраски по форме ». IEEE Transactions по анализу шаблонов и машинному анализу 23.5 (2001): 535-542.
^ Шоттон, Джейми и др. « Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста ». Международный журнал компьютерного зрения 81.1 (2009): 2-23.
^ «Лучшее зрение робота» . KurzweilAI . Проверено 9 октября 2013 .
^ Донахью, Джеффри и др. « Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015 г.
^ Karpathy, Андрей, и Ли Фей Фей. « Глубокие визуально-семантические согласования для создания описаний изображений ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015 г.
^ П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Труды Европейской конференции по компьютерному зрению . С. 97–112. Архивировано из оригинала на 2005-03-05.
^ «Андроид глазами компьютерного зрения» .Марта Дж. Фарах «Визуальная агнозия», Компьютерное зрение, вычислительная когнитивная нейробиология, MIT Press, 2011-05-01, страницы 760-781, ISSN 1468-4233 [1] ^{[ мертвая ссылка ]}
^ Эстева, Андре и др. « Классификация рака кожи на уровне дерматологов с использованием глубоких нейронных сетей ». Nature 542.7639 (2017): 115.
^ Браун, М., и Лоу, Д.Г., " Распознавание панорам ", ICCV, стр. 1218, Девятая Международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.
^ Ли, Л., Го, Б., и Шао, К., " Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования признаков и моментов Цернике ", Chinese Optics Letters, Volume 5, Issue 6, pp. 332-335, 2007 .
^ Се, С., Лоу, Д.Г., и Литтл, Дж. Дж., « Глобальная локализация и отображение мобильных роботов на основе зрения », IEEE Transactions on Robotics, 21, 3 (2005), стр. 364-375.
^ Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджио, « О роли объектно-ориентированных функций для распознавания объектов реального мира в биологическом видении ». Лаборатория искусственного интеллекта и Департамент мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследования мозга Мак-Говер, Кембридж, Массачусетс, США
^ Энн Permaloff и Карл Графтон, " Optical Character Recognition " Политическая наука и политика, Vol. 25, No. 3 (сентябрь 1992 г.), стр. 523-531
^ Кристиан Демант, Бернд Штрейхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества в производстве». Краткое описание распознавания объектов в Google Книгах.
^ Нуно Васконселос " Индексирование изображений с помощью иерархий смеси ". Архивировано 18января2011 г. в Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
^ Хейккиля, Янне; Сильвен, Олли (2004). «Система мониторинга велосипедистов и пешеходов в реальном времени». Вычисления изображений и зрения . 22 (7): 563–570. DOI : 10.1016 / j.imavis.2003.09.010 .
^ Хо Ги Чон, Дон Сок Ким, Пал Джу Юн, Джайхи Ким, « Распознавание маркировки парковочных мест на основе анализа структуры для полуавтоматической системы парковки » Структурное, синтаксическое и статистическое распознавание образов, Springer Berlin / Heidelberg, 2006
^ SK Nayar, H. Murase, и SA Nene, " Обучение, позиционирование и отслеживание визуального внешнего вида " Proc. IEEE Intl. Конф. по робототехнике и автоматизации, Сан-Диего, май 1994 г.
^ Лю, Ф .; Gleicher, M .; Jin, H .; Агарвала, А. (2009). «Деформации с сохранением содержимого для стабилизации 3D-видео». Транзакции ACM на графике . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . DOI : 10.1145 / 1531326.1531350 .

Внешние ссылки

[1] Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация для сегментации и описания сцены» (PDF) . IEEE Trans Pat Anal Mach Intell .

[2] MJ Суэйн и Д.Х. Баллард «Цветовая индексация», Международный журнал компьютерного зрения, 7: 1, 11-32, 1991.

[3] B. Schiele и JL Crowley "Распознавание без соответствия с использованием многомерных гистограмм рецептивного поля", International Journal of Computer Vision, 36: 1, 31-50, 2000

[4] О. Линде и Т. Линдеберг "Распознавание объектов с использованием составных гистограмм рецептивного поля более высокой размерности", Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004.

[5] О. Линде и Т. Линдеберг «Составленные гистограммы сложных сигналов: исследование информационного содержания в дескрипторах изображения на основе рецептивного поля для распознавания объектов», Computer Vision and Image Understanding, 116: 4, 538-560, 2012.

[6] Лоу, Д.Г., "Отличительные особенности изображения от масштабно-инвариантных ключевых точек", Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.

[Lindeberg2012-7] Линдеберг, Тони (2012). «Масштабно-инвариантное преобразование признаков» . Scholarpedia . 7 (5): 10491. DOI : 10,4249 / scholarpedia.10491 .

[8] Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . DOI : 10.1016 / j.cviu.2007.09.014 .

[9] «Новый алгоритм распознавания объектов обучается на лету» . Gizmag.com . Проверено 21 января 2014 .

[10] Lillywhite, K .; Ли, диджей; Типпетс, В .; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. DOI : 10.1016 / j.patcog.2013.06.002 .

[11] Браун, Мэтью и Дэвид Г. Лоу. « Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных ». 3-D цифровое изображение и моделирование, 2005. 3DIM 2005. Пятая международная конференция по. IEEE, 2005.

[Aude-12] Олива, Од и Антонио Торральба. « Роль контекста в распознавании объектов ». Тенденции в когнитивных науках 11.12 (2007): 520-527.

[Niu-13] а б Ню, Чжэньсин и др. « Контекстно-зависимая тематическая модель для распознавания сцены ». Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE, 2012.

[14] Штейн, Фритьоф и Жерар Медиони. « Структурная индексация: эффективное распознавание трехмерных объектов ». IEEE Transactions по анализу шаблонов и машинному анализу 2 (1992): 125-145.

[15] Чжу, Сон-Чун и Дэвид Мамфорд. « Стохастическая грамматика изображений ». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.

[16] Наяр, Шри К. и Рууд М. Болле. « Распознавание объектов на основе отражения ». Международный журнал компьютерного зрения 17.3 (1996): 219-240.

[17] Уортингтон, Филип Л. и Эдвин Р. Хэнкок. « Распознавание объектов с помощью закраски по форме ». IEEE Transactions по анализу шаблонов и машинному анализу 23.5 (2001): 535-542.

[Shotton-18] Шоттон, Джейми и др. « Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста ». Международный журнал компьютерного зрения 81.1 (2009): 2-23.

[19] «Лучшее зрение робота» . KurzweilAI . Проверено 9 октября 2013 .

[20] Донахью, Джеффри и др. « Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015 г.

[21] Karpathy, Андрей, и Ли Фей Фей. « Глубокие визуально-семантические согласования для создания описаний изображений ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015 г.

[22] П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Труды Европейской конференции по компьютерному зрению . С. 97–112. Архивировано из оригинала на 2005-03-05.

[23] «Андроид глазами компьютерного зрения» .Марта Дж. Фарах «Визуальная агнозия», Компьютерное зрение, вычислительная когнитивная нейробиология, MIT Press, 2011-05-01, страницы 760-781, ISSN 1468-4233 [1] ^{[ мертвая ссылка ]}

[24] Эстева, Андре и др. « Классификация рака кожи на уровне дерматологов с использованием глубоких нейронных сетей ». Nature 542.7639 (2017): 115.

[25] Браун, М., и Лоу, Д.Г., " Распознавание панорам ", ICCV, стр. 1218, Девятая Международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.

[26] Ли, Л., Го, Б., и Шао, К., " Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования признаков и моментов Цернике ", Chinese Optics Letters, Volume 5, Issue 6, pp. 332-335, 2007 .

[27] Се, С., Лоу, Д.Г., и Литтл, Дж. Дж., « Глобальная локализация и отображение мобильных роботов на основе зрения », IEEE Transactions on Robotics, 21, 3 (2005), стр. 364-375.

[28] Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджио, « О роли объектно-ориентированных функций для распознавания объектов реального мира в биологическом видении ». Лаборатория искусственного интеллекта и Департамент мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследования мозга Мак-Говер, Кембридж, Массачусетс, США

[29] Энн Permaloff и Карл Графтон, " Optical Character Recognition " Политическая наука и политика, Vol. 25, No. 3 (сентябрь 1992 г.), стр. 523-531

[30] Кристиан Демант, Бернд Штрейхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества в производстве». Краткое описание распознавания объектов в Google Книгах.

[31] Нуно Васконселос " Индексирование изображений с помощью иерархий смеси ". Архивировано 18января2011 г. в Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.

[32] Хейккиля, Янне; Сильвен, Олли (2004). «Система мониторинга велосипедистов и пешеходов в реальном времени». Вычисления изображений и зрения . 22 (7): 563–570. DOI : 10.1016 / j.imavis.2003.09.010 .

[33] Хо Ги Чон, Дон Сок Ким, Пал Джу Юн, Джайхи Ким, « Распознавание маркировки парковочных мест на основе анализа структуры для полуавтоматической системы парковки » Структурное, синтаксическое и статистическое распознавание образов, Springer Berlin / Heidelberg, 2006

[34] SK Nayar, H. Murase, и SA Nene, " Обучение, позиционирование и отслеживание визуального внешнего вида " Proc. IEEE Intl. Конф. по робототехнике и автоматизации, Сан-Диего, май 1994 г.

[35] Лю, Ф .; Gleicher, M .; Jin, H .; Агарвала, А. (2009). «Деформации с сохранением содержимого для стабилизации 3D-видео». Транзакции ACM на графике . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . DOI : 10.1145 / 1531326.1531350 .

[1]