Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Компьютерное зрение - это междисциплинарная научная область, которая занимается тем, как компьютеры могут получить общее представление о цифровых изображениях или видео . С точки зрения инженерии , он стремится понять и автоматизировать задачи, которые может выполнять зрительная система человека . [1] [2] [3]

Задачи компьютерного зрения включают в себя методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символьной информации, например, в форме решений. [4] [5] [6] [7] Понимание в этом контексте означает преобразование визуальных образов (входных сигналов сетчатки) в описания мира, которые имеют смысл для мыслительных процессов и могут вызывать соответствующие действия. Это понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения. [8]

Научная дисциплина компьютерного зрения связана с теорией за искусственных систем что извлекать информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер, многомерные данные с 3D-сканера или медицинского сканирующего устройства. Технологическая дисциплина компьютерного зрения стремится применить свои теории и модели к созданию систем компьютерного зрения.

Поддомены компьютерного зрения включают реконструкцию сцены , обнаружение событий, отслеживание видео , распознавание объектов , оценку трехмерной позы , обучение, индексацию, оценку движения , визуальное отслеживание , моделирование трехмерной сцены и восстановление изображений . [6]

Определение [ править ]

Компьютерное зрение - это междисциплинарная область, которая занимается тем, как заставить компьютеры получать высокоуровневое понимание цифровых изображений или видео . С точки зрения инженерии , он направлен на автоматизацию задач, которые может выполнять зрительная система человека . [1] [2] [3] «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Оно включает в себя разработку теоретической и алгоритмической основы для достижения автоматического визуального понимания. . " [9] Как научная дисциплина, компьютерное зрение связано с теорией, лежащей в основе искусственных систем, извлекающих информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды с нескольких камер или многомерные данные с медицинского сканера . [10] Как технологическая дисциплина, компьютерное зрение стремится применить свои теории и модели для построения систем компьютерного зрения.

История [ править ]

В конце 1960-х годов компьютерное зрение началось в университетах, которые были первопроходцами в области искусственного интеллекта . Он должен был имитировать зрительную систему человека , как ступеньку к наделению роботов разумным поведением. [11] В 1966 году считалось, что этого можно достичь с помощью летнего проекта, подключив камеру к компьютеру и заставив ее «описывать увиденное». [12] [13]

Что отличало компьютерное зрение от преобладающей области обработки цифровых изображений в то время, так это стремление извлечь трехмерную структуру из изображений с целью достижения полного понимания сцены. Исследования 1970-х легли в основу многих существующих сегодня алгоритмов компьютерного зрения , включая извлечение краев из изображений, маркировку линий, неполиэдральное и многогранное моделирование , представление объектов как взаимосвязей более мелких структур, оптический поток и оценка движения . [11]

В следующем десятилетии были проведены исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним относятся концепция масштабного пространства , вывод формы из различных сигналов, таких как затенение , текстура и фокус, а также контурные модели, известные как змейки . Исследователи также поняли, что многие из этих математических концепций можно рассматривать в рамках той же системы оптимизации, что и регуляризация и марковские случайные поля . [14] К 1990-м годам некоторые из предыдущих тем исследований стали более активными, чем другие. Исследования проективных трехмерных реконструкций привели к лучшему пониманию калибровки камеры.. С появлением методов оптимизации для калибровки камеры стало понятно, что многие идеи уже были изучены в теории настройки пучков из области фотограмметрии . Это привело к появлению методов разреженных трехмерных реконструкций сцен из нескольких изображений . Был достигнут прогресс в решении проблемы плотного стерео соответствия и дальнейших методов многовидового стерео. В то же время для решения сегментации изображения использовались варианты вырезания графа . Это десятилетие также ознаменовалось первым использованием методов статистического обучения на практике для распознавания лиц на изображениях (см. Eigenface). К концу 1990-х годов произошли значительные изменения с усилением взаимодействия между областями компьютерной графики и компьютерного зрения. Это включало изображения на основе визуализации , морфинг изображения , вид интерполяции, панорамная сшивание изображения и раннего рендеринга светового поля . [11]

Последние работы видели возрождение художественных -Ы методы, используемое в сочетании с методами машинного обучения и сложными механизмами оптимизации. [15] [16] Развитие методов глубокого обучения вдохнуло жизнь в сферу компьютерного зрения. Точность алгоритмов глубокого обучения на нескольких эталонных наборах данных компьютерного зрения для задач, начиная от классификации, сегментации и оптического потока, превзошла предыдущие методы. [ необходима цитата ]

Связанные поля [ править ]

Обнаружение объекта на фотографии

Физика твердого тела [ править ]

Физика твердого тела - еще одна область, тесно связанная с компьютерным зрением. Большинство систем компьютерного зрения полагаются на датчики изображения , которые обнаруживают электромагнитное излучение , которое обычно имеет форму видимого или инфракрасного света . Датчики разработаны с использованием квантовой физики . Процесс взаимодействия света с поверхностями объясняется с помощью физики. Физика объясняет поведение оптики, которая является основной частью большинства систем обработки изображений. Сложные датчики изображения даже требуют квантовой механики, чтобы обеспечить полное понимание процесса формирования изображения. [11] Кроме того, различные проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например, движение в жидкостях.

Нейробиология [ править ]

Третья область, которая играет важную роль, - это нейробиология , в частности, изучение системы биологического зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященное обработке зрительных стимулов как у людей, так и у различных животных. Это привело к грубому, но сложному описанию того, как «настоящие» системы технического зрения работают для решения определенных задач, связанных со зрением. Эти результаты привели к созданию подобласти компьютерного зрения, в которой искусственные системы предназначены для имитации обработки и поведения биологических систем на разных уровнях сложности. Кроме того, некоторые методы, основанные на обучении, разработанные в рамках компьютерного зрения ( например, нейронная сеть и глубокое обучение) анализ и классификация изображений и признаков) имеют свою основу в биологии.

Некоторые направления исследований компьютерного зрения тесно связаны с изучением биологического зрения - действительно, точно так же, как многие направления исследований ИИ тесно связаны с исследованиями человеческого сознания и использованием хранимых знаний для интерпретации, интеграции и использования визуальной информации. Область биологического зрения изучает и моделирует физиологические процессы, лежащие в основе зрительного восприятия у людей и других животных. Компьютерное зрение, с другой стороны, изучает и описывает процессы, реализованные в программном и аппаратном обеспечении систем искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным зрением оказался плодотворным для обеих областей. [17]

Обработка сигнала [ править ]

Еще одна область, связанная с компьютерным зрением, - это обработка сигналов . Многие методы обработки сигналов с одной переменной, обычно временных сигналов, можно естественным образом расширить до обработки сигналов с двумя переменными или сигналов с несколькими переменными в компьютерном зрении. Однако из-за специфики изображений в рамках компьютерного зрения разработано множество методов, которые не имеют аналогов при обработке сигналов с одной переменной. Вместе с многомерностью сигнала это определяет подполе в обработке сигнала как части компьютерного зрения.

Роботизированная навигация [ править ]

Робот-навигация иногда связана с автономным планированием пути или обдумыванием роботизированных систем для навигации в окружающей среде . [18] Требуется подробное понимание этих сред, чтобы ориентироваться в них. Информация об окружающей среде может предоставляться системой компьютерного зрения, действующей как датчик технического зрения и предоставляющей высокоуровневую информацию об окружающей среде и роботе.

Другие поля [ править ]

Помимо вышеупомянутых взглядов на компьютерное зрение, многие смежные темы исследований также могут быть изучены с чисто математической точки зрения. Например, многие методы компьютерного зрения основаны на статистике , оптимизации или геометрии . Наконец, значительная часть области посвящена аспекту реализации компьютерного зрения; как существующие методы могут быть реализованы в различных комбинациях программного и аппаратного обеспечения или как эти методы могут быть изменены для увеличения скорости обработки без слишком большой потери производительности. Компьютерное зрение также используется в электронной коммерции модной одежды, управлении запасами, патентном поиске, производстве мебели и индустрии красоты. [ необходима цитата ]

Отличия [ править ]

Поля , наиболее тесно связанные с компьютерным зрением являются обработка изображений , анализ изображений и машинное зрение . Существует значительное совпадение диапазона методов и приложений, которые они охватывают. Это означает, что основные методы, которые используются и разрабатываются в этих областях, схожи, что можно интерпретировать как наличие только одного поля с разными именами. С другой стороны, представляется необходимым, чтобы исследовательские группы, научные журналы, конференции и компании представляли или продвигали себя как принадлежащих конкретно к одной из этих областей, и, следовательно, различные характеристики, которые отличают каждую из областей от других, были представлен.

Компьютерная графика создает данные изображения из 3D-моделей, компьютерное зрение часто создает 3D-модели из данных изображения. [19] Существует также тенденция к комбинации этих двух дисциплин, например , как это было исследовано в дополненной реальности .

Следующие характеристики кажутся важными, но не должны восприниматься как общепринятые:

  • Обработка изображений и анализа изображений , как правило, акцент на 2D - изображений, как преобразовать одно изображение в другое, например , с помощью пиксельных-накрест операций , таких как повышение контрастности, локальных операций , таких как экстракция кромок или удаления шума, или геометрических преобразований , таких как поворот изображения . Эта характеристика подразумевает, что обработка / анализ изображения не требует предположений и не дает толкований относительно содержания изображения.
  • Компьютерное зрение включает трехмерный анализ двухмерных изображений. Это анализирует трехмерную сцену, спроецированную на одно или несколько изображений, например , как восстановить структуру или другую информацию о трехмерной сцене из одного или нескольких изображений. Компьютерное зрение часто основывается на более или менее сложных предположениях о сцене, изображенной на изображении.
  • Машинное зрение - это процесс применения ряда технологий и методов для обеспечения автоматического контроля на основе изображений, управления процессами и управления роботами [20] в промышленных приложениях. [17] Машинное зрение имеет тенденцию сосредотачиваться на приложениях, в основном в производстве, например , роботы на базе машинного зрения и системы для визуального контроля, измерения или отбора (например, сбор мусорных баков [21]). Это означает, что технологии датчиков изображения и теория управления часто интегрируются с обработкой данных изображения для управления роботом и что обработка в реальном времени делается с помощью эффективных реализаций в аппаратном и программном обеспечении. Это также означает, что внешние условия, такие как освещение, могут быть и часто более контролируемы в машинном зрении, чем в общем компьютерном зрении, что позволяет использовать различные алгоритмы.
  • Существует также область, называемая визуализацией, которая в первую очередь фокусируется на процессе создания изображений, но иногда также имеет дело с обработкой и анализом изображений. Например, медицинская визуализация включает в себя значительную работу по анализу данных изображения в медицинских приложениях.
  • Наконец, распознавание образов - это область, в которой используются различные методы для извлечения информации из сигналов в целом, в основном на основе статистических подходов и искусственных нейронных сетей . [22] Значительная часть этой области посвящена применению этих методов к данным изображений.

Фотограмметрия также пересекается с компьютерным зрением, например, стереофотограмметрия и компьютерное стереозрение .

Приложения [ править ]

Диапазон приложений варьируется от таких задач, как промышленное машинное зрение.системы, которые, скажем, проверяют бутылки, мчащиеся по производственной линии, для исследования искусственного интеллекта и компьютеров или роботов, которые могут понять окружающий мир. Области компьютерного зрения и машинного зрения в значительной степени пересекаются. Компьютерное зрение охватывает основную технологию автоматического анализа изображений, которая используется во многих областях. Машинное зрение обычно относится к процессу объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматизированного контроля и управления роботами в промышленных приложениях. Во многих приложениях компьютерного зрения компьютеры предварительно запрограммированы на решение конкретной задачи, но методы, основанные на обучении, в настоящее время становятся все более распространенными. Примеры приложений компьютерного зрения включают системы для:

Изучение трехмерных фигур было сложной задачей в области компьютерного зрения. Недавние достижения в области глубокого обучения позволили исследователям создавать модели, которые могут легко и эффективно генерировать и реконструировать трехмерные формы из одно- или многовидовых карт глубины или силуэтов [19].
  • Автоматический контроль, например , в производственных приложениях;
  • Помощь людям в задачах идентификации, например, система идентификации видов ; [23]
  • Управление процессами, например , промышленный робот ;
  • Обнаружение событий , например , для визуального наблюдения или подсчета людей , например, в ресторанной индустрии ;
  • Взаимодействие, например , как вход в устройство для взаимодействия компьютера и человека ;
  • Моделирование объектов или окружающей среды, например , анализ медицинских изображений или топографическое моделирование;
  • Навигация, например , с помощью автономного транспортного средства или мобильного робота ; и
  • Организация информации, например , для индексирования баз данных изображений и последовательностей изображений.

Медицина [ править ]

Воспроизвести медиа
Концептуальный видеоролик DARPA Visual Media Reasoning

Одной из наиболее известных областей применения является медицинское компьютерное зрение или обработка медицинских изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента . Примером этого является обнаружение опухолей , атеросклероза или других злокачественных изменений; другой пример - измерения размеров органов, кровотока и т. д. Он также поддерживает медицинские исследования, предоставляя новую информацию: например , о структуре мозга или о качестве лечения. Применение компьютерного зрения в области медицины также включает улучшение изображений, интерпретируемых людьми, например ультразвуковых или рентгеновских изображений, для уменьшения влияния шума.

Машинное зрение [ править ]

Вторая область применения компьютерного зрения - это промышленность, иногда называемая машинным зрением , где информация извлекается с целью поддержки производственного процесса. Одним из примеров является контроль качества, при котором детали или готовая продукция автоматически проверяются на предмет дефектов. Другой пример - измерение положения и ориентации деталей, которые должны быть захвачены манипулятором. Машинное зрение также широко используется в сельскохозяйственных процессах для удаления нежелательных пищевых продуктов из сыпучих материалов, этот процесс называется оптической сортировкой . [24]

Военные [ править ]

Военные приложения, вероятно, являются одной из самых больших областей компьютерного зрения. Очевидные примеры - обнаружение вражеских солдат или транспортных средств и наведение ракет . Более совершенные системы наведения ракеты направляют ракету в область, а не в конкретную цель, и выбор цели производится, когда ракета достигает области, на основе данных изображения, полученного на месте. Современные военные концепции, такие как «осведомленность о поле боя», подразумевают, что различные датчики, включая датчики изображения, предоставляют богатый набор информации о месте боя, который может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для уменьшения сложности и объединения информации от нескольких датчиков для повышения надежности.

Автономные транспортные средства [ править ]

Художественная концепция Curiosity , пример беспилотного наземного транспортного средства. Обратите внимание на стереокамеру, установленную сверху марсохода.

Одной из новых областей применения являются автономные транспортные средства, к которым относятся подводные аппараты , наземные транспортные средства (небольшие роботы с колесами, легковые или грузовые автомобили), летательные аппараты и беспилотные летательные аппараты ( БПЛА ). Уровень автономии варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, например, чтобы знать, где он находится, или для создания карты своего окружения ( SLAM ) и для обнаружения препятствий. Его также можно использовать для обнаружения определенных событий, связанных с конкретной задачей, например, БПЛА ищет лесных пожаров. Примерами вспомогательных систем являются системы предупреждения о препятствиях в автомобилях и системы для автономной посадки самолетов. Некоторые производители автомобилей продемонстрировали системы для автономного вождения автомобилей , но эта технология еще не достигла того уровня, на котором ее можно было бы выпустить на рынок. Существует множество примеров военных автономных транспортных средств, начиная от современных ракет и заканчивая БЛА для разведки или наведения ракет. Космонавтика уже сделана с автономными транспортными средствами с использованием компьютерного зрения, например , NASA «s Любопытство и КНКА » s Yutu-2 ровера.

Тактильная обратная связь [ править ]

Резиновый искусственный кожный слой с гибкой структурой для оценки формы микроволнистых поверхностей.
Выше изображена силиконовая форма с камерой внутри, содержащей множество различных точечных маркеров. Когда этот датчик прижимается к поверхности, силикон деформируется, и положение точечных маркеров смещается. Затем компьютер может получить эти данные и определить, как именно форма прижимается к поверхности. Это можно использовать для калибровки рук роботов, чтобы убедиться, что они могут эффективно захватывать объекты.

Такие материалы, как резина и силикон, используются для создания датчиков, которые позволяют обнаруживать микроволны и калибровать руки роботов. Резину можно использовать для создания формы, которую можно разместить на пальце, внутри этой формы будет несколько тензодатчиков. Затем форму пальца и датчики можно было разместить на небольшом листе резины, содержащем множество резиновых штифтов. Затем пользователь может надеть форму для пальца и обвести поверхность. Затем компьютер может считывать данные с тензодатчиков и определять, подталкивается ли один или несколько штифтов вверх. Если штифт проталкивается вверх, компьютер может определить это как дефект на поверхности. Такая технология полезна для получения точных данных о дефектах на очень большой поверхности. [25]Другой вариант этого датчика формы пальца - датчики, которые содержат камеру, подвешенную в силиконе. Силикон образует купол вокруг камеры, а в силикон встроены точечные маркеры, расположенные на одинаковом расстоянии. Затем эти камеры можно разместить на таких устройствах, как руки роботов, чтобы компьютер мог получать высокоточные тактильные данные. [26]

Другие области применения включают:

  • Поддержка создания визуальных эффектов для кино и телевещания, например , слежение за камерой (matchmoving).
  • Наблюдение .
  • Обнаружение сонливости водителя [ необходима ссылка ]
  • Отслеживание и подсчет организмов в биологических науках [27]

Типовые задачи [ править ]

Каждая из описанных выше прикладных областей задействует ряд задач компьютерного зрения; более или менее четко определенные задачи измерения или задачи обработки, которые можно решить с помощью множества методов. Ниже представлены некоторые примеры типичных задач компьютерного зрения.

Задачи компьютерного зрения включают в себя методы получения , обработки , анализа и понимания цифровых изображений, а также извлечения многомерных данных из реального мира для получения числовой или символьной информации, например , в форме решений. [4] [5] [6] [7]Понимание в этом контексте означает преобразование визуальных образов (вход сетчатки) в описания мира, которые могут взаимодействовать с другими мыслительными процессами и вызывать соответствующие действия. Это понимание изображения можно рассматривать как отделение символической информации от данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения. [8]

Признание [ править ]

Классическая проблема компьютерного зрения, обработки изображений и машинного зрения состоит в том, чтобы определить, содержат ли данные изображения какой-либо конкретный объект, функцию или действие. Различные разновидности проблемы распознавания описаны в литературе: [ ссылка ]

  • Распознавание объектов (также называемое классификацией объектов ) - можно распознать один или несколько заранее заданных или изученных объектов или классов объектов, обычно вместе с их 2D-позициями на изображении или 3D-позициями в сцене. Blippar, Google Goggles и LikeThat предоставляют автономные программы, иллюстрирующие эту функциональность.
  • Идентификация  - распознается отдельный экземпляр объекта. Примеры включают идентификацию лица или отпечатка пальца конкретного человека, идентификацию рукописных цифр или идентификацию конкретного транспортного средства.
  • Обнаружение  - данные изображения сканируются для определенного условия. Примеры включают обнаружение возможных аномальных клеток или тканей на медицинских изображениях или обнаружение транспортного средства в автоматической системе взимания платы за проезд. Обнаружение, основанное на относительно простых и быстрых вычислениях, иногда используется для поиска меньших областей интересных данных изображения, которые могут быть дополнительно проанализированы более требовательными к вычислениям методами для получения правильной интерпретации.

В настоящее время лучшие алгоритмы для таких задач основаны на сверточных нейронных сетях . Иллюстрация их возможностей дается на конкурсе ImageNet Large Scale Visual Recognition Challenge ; Это эталон классификации и обнаружения объектов, в котором используются миллионы изображений и 1000 классов объектов. [28] Производительность сверточных нейронных сетей в тестах ImageNet теперь близка к показателям людей. [28]Лучшие алгоритмы по-прежнему борются с небольшими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, держащий перо в руке. У них также есть проблемы с изображениями, которые были искажены фильтрами (все более распространенное явление в современных цифровых камерах). Напротив, такие изображения редко беспокоят людей. Однако у людей обычно возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты по мелкозернистым классам, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим с легкостью [ цитата необходима ] .

Существует несколько специализированных задач, основанных на распознавании, таких как:

  • Поиск изображений на основе содержимого  - поиск всех изображений в большом наборе изображений с определенным содержанием. Контент может быть указан по-разному, например, с точки зрения сходства относительно целевого изображения (дайте мне все изображения, похожие на изображение X), или с точки зрения критериев поиска высокого уровня, заданных как ввод текста (дайте мне все изображения, которые содержат много домов, взятых зимой, и в них нет машин).
Компьютерное зрение для противодействия людям в общественных местах, торговых центрах, торговых центрах
  • Оценка позы  - оценка положения или ориентации определенного объекта относительно камеры. Примером применения этого метода может быть помощь роботу-манипулятору в извлечении объектов с конвейерной ленты на сборочной линии или в захвате деталей из бункера.
  • Оптическое распознавание символов (OCR) - идентификация символов на изображениях печатного или рукописного текста, обычно с целью кодирования текста в формате, более удобном для редактирования или индексации ( например, ASCII ).
  • Чтение 2D-кода  - чтение 2D-кодов, таких как матрица данных и QR- коды.
  • Распознавание лиц
  • Технология распознавания форм(SRT) всистемах противодействия людям, отличающих людей (модели головы и плеч) от объектов.

Анализ движения [ править ]

Несколько задач связаны с оценкой движения, когда последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения, либо в трехмерной сцене, либо даже в камере, которая создает изображения. Примеры таких задач:

  • Egomotion  - определение твердого трехмерного движения (вращения и перемещения) камеры из последовательности изображений, созданных камерой.
  • Отслеживание  - отслеживание движений (обычно) меньшего набора интересных точек или объектов ( например , транспортных средств, людей или других организмов [27] ) в последовательности изображений.
  • Отслеживание движения транспорта с использованием Python (библиотека cvlib)
    Оптический поток  - чтобы определить для каждой точки изображения, как эта точка движется относительно плоскости изображения, т. Е. Ее видимое движение. Это движение является результатом как того, как соответствующая трехмерная точка перемещается в сцене, так и того, как камера перемещается относительно сцены.

Реконструкция сцены [ править ]

Учитывая одно или (обычно) несколько изображений сцены или видео, реконструкция сцены направлена ​​на вычисление трехмерной модели сцены. В простейшем случае модель может быть набором трехмерных точек. Более сложные методы позволяют получить полную трехмерную модель поверхности. Появление трехмерных изображений, не требующих движения или сканирования, и связанных с ними алгоритмов обработки позволяет быстро продвигаться в этой области. Трехмерное зондирование на основе сетки можно использовать для получения трехмерных изображений под разными углами. Теперь доступны алгоритмы для объединения нескольких 3D-изображений в облака точек и 3D-модели. [19]

Восстановление изображения [ править ]

Целью восстановления изображения является удаление с изображений шума (шум сенсора, размытость изображения и т. Д.). Самый простой из возможных подходов к удалению шума - это различные типы фильтров, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят локальные структуры изображения, чтобы отличить их от шума. Сначала анализируя данные изображения с точки зрения локальных структур изображения, таких как линии или края, а затем управляя фильтрацией на основе локальной информации из этапа анализа, обычно получается лучший уровень удаления шума по сравнению с более простыми подходами.

Примером в этой области является живопись .

Системные методы [ править ]

Организация системы компьютерного зрения сильно зависит от приложения. Некоторые системы представляют собой автономные приложения, которые решают конкретную задачу измерения или обнаружения, в то время как другие представляют собой подсистему более крупной конструкции, которая, например, также содержит подсистемы для управления механическими приводами, планирования, информационных баз данных, управления персоналом. машинные интерфейсы и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, являются ли ее функциональные возможности заранее заданными или какая-то ее часть может быть изучена или изменена во время работы. Многие функции уникальны для данного приложения. Однако есть типичные функции, которые можно найти во многих системах компьютерного зрения.

  • Получение изображения - цифровое изображение создается одним или несколькими датчиками изображения , которые, помимо различных типов светочувствительных камер, включают датчики дальности , устройства томографии, радары, ультразвуковые камеры и т. Д. В зависимости от типа датчика результирующие данные изображения - это обычное 2D-изображение, 3D-объем или последовательность изображений. Значения пикселей обычно соответствуют интенсивности света в одной или нескольких спектральных полосах (серые изображения или цветные изображения), но также могут быть связаны с различными физическими показателями, такими как глубина, поглощение или коэффициент отражения звуковых или электромагнитных волн или ядерный магнитный резонанс . [24]
  • Предварительная обработка - прежде чем метод компьютерного зрения может быть применен к данным изображения для извлечения некоторой конкретной информации, обычно необходимо обработать данные, чтобы убедиться, что они удовлетворяют определенным предположениям, подразумеваемым методом. Примеры:
    • Повторная выборка для проверки правильности системы координат изображения.
    • Подавление шума, чтобы гарантировать, что шум датчика не вносит ложную информацию.
    • Повышение контрастности, чтобы гарантировать, что релевантная информация может быть обнаружена.
    • Масштабируйте пространственное представление для улучшения структур изображения в локальных масштабах.
  • Извлечение функций - из данных изображения извлекаются элементы изображения разного уровня сложности. [24] Типичными примерами таких функций являются:
    • Линии, края и гребни .
    • Локализованные точки интереса, такие как углы , капли или точки.
Более сложные функции могут быть связаны с текстурой, формой или движением.
  • Обнаружение / сегментация - на каком-то этапе обработки принимается решение о том, какие точки или области изображения являются релевантными для дальнейшей обработки. [24] Примеры:
    • Подбор определенного набора точек интереса.
    • Сегментация одной или нескольких областей изображения, содержащих определенный интересующий объект.
    • Сегментация изображения на вложенную архитектуру сцены, включающую передний план, группы объектов, отдельные объекты или основные части [29] объекта (также называемые иерархией пространственно-таксоновых сцен) [30], в то время как визуальная значимость часто реализуется как пространственное и временное внимание .
    • Сегментация или совместная сегментация одного или нескольких видео в серию покадровых масок переднего плана, сохраняя при этом его временную семантическую непрерывность. [31] [32]
  • Обработка высокого уровня - на этом этапе ввод обычно представляет собой небольшой набор данных, например набор точек или область изображения, которая, как предполагается, содержит определенный объект. [24] Остальная обработка касается, например:
    • Проверка того, что данные удовлетворяют допущениям на основе модели и для конкретного приложения.
    • Оценка параметров приложения, таких как поза или размер объекта.
    • Распознавание изображений - классификация обнаруженного объекта по разным категориям.
    • Регистрация изображений - сравнение и объединение двух разных ракурсов одного и того же объекта.
  • Принятие решения Принятие окончательного решения, необходимого для заявки, [24] например:
    • Пройдены / не пройдены приложения автоматической проверки
    • Совпадение / несоответствие в приложениях распознавания.
    • Отметьте для дальнейшего рассмотрения людьми в медицинских, военных, охранных и признанных приложениях.

Системы понимания изображений [ править ]

Системы понимания изображения (IUS) включают три уровня абстракции, а именно: низкий уровень включает примитивы изображения, такие как края, элементы текстуры или области; промежуточный уровень включает границы, поверхности и объемы; а высокий уровень включает объекты, сцены или события. Многие из этих требований - целиком тема для дальнейших исследований.

Требования к представлению при разработке IUS для этих уровней: представление прототипов концепций, организация концептов, пространственные знания, временные знания, масштабирование и описание посредством сравнения и дифференциации.

В то время как вывод относится к процессу получения новых, явно не представленных фактов из известных в настоящее время фактов, контроль относится к процессу, который выбирает, какие из многих методов вывода, поиска и сопоставления следует применять на конкретном этапе обработки. Требования к выводу и контролю для ВМС: поиск и активация гипотез, сопоставление и проверка гипотез, формирование и использование ожиданий, изменение и фокус внимания, уверенность и сила веры, вывод и достижение цели. [33]

Оборудование [ править ]

Новый iPad оснащен лидарным датчиком

Есть много видов систем компьютерного зрения; однако все они содержат эти основные элементы: источник питания, по крайней мере, одно устройство получения изображения (камера, компакт-диск и т. д.), процессор, а также кабели управления и связи или какой-либо механизм беспроводной связи. Кроме того, практическая система технического зрения содержит программное обеспечение, а также дисплей для наблюдения за системой. Системы технического зрения для внутренних помещений, как и большинство промышленных, содержат систему освещения и могут быть размещены в контролируемой среде. Кроме того, законченная система включает множество аксессуаров, таких как опоры для камер, кабели и разъемы.

В большинстве систем компьютерного зрения используются камеры видимого света, которые пассивно просматривают сцену с частотой кадров не более 60 кадров в секунду (обычно намного медленнее).

Некоторые системы компьютерного зрения используют оборудование для получения изображений с активным освещением или что-то другое, кроме видимого света или и то, и другое, например, 3D-сканеры со структурированным светом , термографические камеры , гиперспектральные формирователи изображений , радарные изображения , лидарные сканеры, магнитно-резонансные изображения , гидролокаторы бокового обзора. , гидролокатор с синтезированной апертурой и т. д. Такое оборудование захватывает «изображения», которые затем обрабатываются часто с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений в видимом свете.

В то время как традиционные вещательные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, достижения в цифровой обработке сигналов и потребительском графическом оборудовании сделали возможным получение, обработку и отображение изображений с высокой скоростью для систем реального времени, порядка сотен и сотен кадров. тысячи кадров в секунду. Для приложений в робототехнике критически важны быстрые видеосистемы в реальном времени, которые часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображения позволяет выполнять 3D-измерения и отслеживание характеристик. [34]

Эгоцентрические системы зрения состоят из носимой камеры, которая автоматически делает снимки от первого лица.

С 2016 года блоки обработки изображений появляются как новый класс процессоров, чтобы дополнить ЦП и графические процессоры (ГП) в этой роли. [35]

См. Также [ править ]

  • Вычислительная визуализация
  • Компьютерная фотография
  • Глоссарий по машинному зрению
  • Картографирование космоса
  • Алгоритм Текномо – Фернандеса
  • Визуальная система
  • Визуальное восприятие
  • Наука о видении
  • Эгоцентрическое видение
  • Визуальная агнозия
  • Компьютерное прослушивание

Списки [ править ]

  • Список тем компьютерного зрения
  • Список новых технологий
  • Схема искусственного интеллекта
  • Очерк компьютерного зрения

Ссылки [ править ]

  1. ^ a b Дана Х. Баллард; Кристофер М. Браун (1982). Компьютерное зрение . Прентис Холл. ISBN 978-0-13-165316-0.
  2. ^ а б Хуанг, Т. (1996-11-19). Вандони, Карло, Э (ред.). Компьютерное зрение: эволюция и перспективы (PDF) . 19-я вычислительная школа ЦЕРН . Женева: ЦЕРН. С. 21–25. DOI : 10,5170 / CERN-1996-008.21 . ISBN  978-9290830955.
  3. ^ a b Милана Сонька; Вацлав Главац; Роджер Бойл (2008). Обработка изображений, анализ и машинное зрение . Томсон. ISBN 978-0-495-08252-1.
  4. ^ а б Рейнхард Клетте (2014). Краткое компьютерное зрение . Springer. ISBN 978-1-4471-6320-6.
  5. ^ a b Линда Г. Шапиро ; Джордж К. Стокман (2001). Компьютерное зрение . Прентис Холл. ISBN 978-0-13-030796-5.
  6. ^ a b c Тим Моррис (2004). Компьютерное зрение и обработка изображений . Пэлгрейв Макмиллан. ISBN 978-0-333-99451-1.
  7. ^ а б Бернд Яне; Хорст Хаусеккер (2000). Компьютерное зрение и приложения, Руководство для студентов и практиков . Академическая пресса. ISBN 978-0-13-085198-7.
  8. ^ а б Дэвид А. Форсайт; Жан Понсе (2003). Компьютерное зрение, современный подход . Прентис Холл. ISBN 978-0-13-085198-7.
  9. ^ http://www.bmva.org/visionoverview Архивировано 16февраля 2017 г.на Wayback Machine . Британская ассоциация машинного зрения и Общество распознавания образов. Архивировано 20 февраля 2017 г.
  10. ^ Мерфи, Майк. Медицинский сканер «трикодер» из «Звездного пути» только приблизился к тому, чтобы стать реальностью » .
  11. ^ a b c d Ричард Селиски (30 сентября 2010 г.). Компьютерное зрение: алгоритмы и приложения . Springer Science & Business Media. С. 10–16. ISBN 978-1-84882-935-0.
  12. ^ Паперт, Сеймур (1966-07-01). «Проект« Летнее видение »». MIT AI Memos (1959 - 2004) . ЛВП : 1721,1 / 6125 .
  13. ^ Маргарет Энн Боден (2006). Разум как машина: история когнитивной науки . Кларендон Пресс. п. 781. ISBN. 978-0-19-954316-8.
  14. Такео Канаде (6 декабря 2012 г.). Трехмерное машинное зрение . Springer Science & Business Media. ISBN 978-1-4613-1981-8.
  15. ^ Нику Себе; Ира Коэн; Ашутош Гарг; Томас С. Хуанг (3 июня 2005 г.). Машинное обучение в компьютерном зрении . Springer Science & Business Media. ISBN 978-1-4020-3274-5.
  16. ^ Уильям Фриман; Пьетро Перона; Бернхард Шолкопф (2008). «Гостевая редакция: Машинное обучение для компьютерного зрения» . Международный журнал компьютерного зрения . 77 (1): 1. DOI : 10.1007 / s11263-008-0127-7 . ISSN 1573-1405 . 
  17. ^ а б Стегер, Карстен; Маркус Ульрих; Кристиан Видеманн (2018). Алгоритмы и приложения машинного зрения (2-е изд.). Вайнхайм: Wiley-VCH . п. 1. ISBN 978-3-527-41365-2. Проверено 30 января 2018 .
  18. ^ Мюррей, Дон и Каллен Дженнингс. « Картографирование и навигация на основе стереозрения для мобильных роботов ». Материалы международной конференции по робототехнике и автоматизации. Vol. 2. IEEE, 1997.
  19. ^ a b c Солтани, AA; Huang, H .; Wu, J .; Кулькарни, ТД; Тененбаум, Дж. Б. (2017). «Синтез 3D-форм посредством моделирования карт глубины и силуэтов с несколькими представлениями с помощью глубоких генеративных сетей». Труды конференции IEEE по компьютерному зрению и распознаванию образов : 1511–1519. DOI : 10.1109 / CVPR.2017.269 . ЛВП : 1721,1 / 126644 .
  20. Турек, Фред (июнь 2011 г.). «Основы машинного зрения, как заставить роботов видеть». Журнал NASA Tech Briefs . 35 (6). страницы 60–62
  21. ^ «Будущее автоматизированного случайного выбора корзины» .
  22. Червяков, Н.И. Ляхов П.А.; Дерябин, М.А. Нагорнов Н.Н. Валуева, М.В. Валуев, Г.В. (2020). «Решение на основе системы счисления остатков для снижения стоимости оборудования сверточной нейронной сети». Нейрокомпьютеры : 439–453. DOI : 10.1016 / j.neucom.2020.04.018 . Сверточные нейронные сети (CNN) представляют собой архитектуры глубокого обучения, которые в настоящее время используются в широком спектре приложений, включая компьютерное зрение, распознавание речи, идентификацию белковых последовательностей в биоинформатике, управление производством, анализ временных рядов в финансах и многие другие.
  23. ^ Wäldchen, Яна; Мэдер, Патрик (2017-01-07). «Идентификация видов растений с использованием методов компьютерного зрения: систематический обзор литературы» . Архивы вычислительных методов в технике . 25 (2): 507–543. DOI : 10.1007 / s11831-016-9206-Z . ISSN 1134-3060 . PMC 6003396 . PMID 29962832 .   
  24. ^ Б с д е е Е. Рой Дэвис (2005). Машинное зрение: теория, алгоритмы, практика . Морган Кауфманн. ISBN 978-0-12-206093-9.
  25. ^ Андо, Мицухито; Такей, Тошинобу; Мотияма, Хироми (2020-03-03). «Резиновый искусственный кожный слой с гибкой структурой для оценки формы микроволнистых поверхностей» . ROBOMECH Journal . 7 (1): 11. DOI : 10,1186 / s40648-020-00159-0 . ISSN 2197-4225 . 
  26. Чхве, Сын Хён; Тахара, Кенджи (12 марта 2020 г.). «Ловкое манипулирование предметами многопалой роботизированной рукой с визуально-тактильными сенсорами на кончиках пальцев» . ROBOMECH Journal . 7 (1): 14. DOI : 10,1186 / s40648-020-00162-5 . ISSN 2197-4225 . 
  27. ^ a b Bruijning, Marjolein; Visser, Marco D .; Hallmann, Caspar A .; Йонгеянс, Элке; Голдинг, Ник (2018). «trackdem: автоматическое отслеживание частиц для получения подсчета населения и распределения размеров из видео в r» . Методы экологии и эволюции . 9 (4): 965–973. DOI : 10.1111 / 2041-210X.12975 . ISSN 2041-210X . 
  28. ^ a b Русаковский, Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуанг, Чжихэн; Карпаты, Андрей; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр К. (декабрь 2015 г.). «Проблема визуального распознавания большого масштаба ImageNet» . Международный журнал компьютерного зрения . 115 (3): 211–252. DOI : 10.1007 / s11263-015-0816-у . hdl : 1721,1 / 104944 . ISSN 0920-5691 . 
  29. ^ A. Maity (2015). «Импровизированное обнаружение заметных объектов и манипуляции с ними». arXiv : 1511.02999 [ cs.CV ].
  30. Barghout, Лорен. « Визуальный таксометрический подход к сегментации изображений с использованием нечетко-пространственного сокращения таксонов дает контекстуально релевантные области ». Обработка информации и управление неопределенностью в системах, основанных на знаниях. Издательство Springer International, 2014.
  31. ^ Лю, Цзыи; Ван, Ле; Хуа, банда; Чжан, Цилинь; Ню, Чжэньсин; Ву, Инь; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических марковских сетей» (PDF) . IEEE Transactions по обработке изображений . 27 (12): 5840–5853. Bibcode : 2018ITIP ... 27.5840L . DOI : 10.1109 / tip.2018.2859622 . ISSN 1057-7149 . PMID 30059300 . S2CID 51867241 . Архивировано из оригинального (PDF) 07.09.2018 . Проверено 14 сентября 2018 .    
  32. ^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (22.05.2018). «Сегмент-трубка: пространственно-временная локализация действия в видео без обрезки с покадровой сегментацией» (PDF) . Датчики . 18 (5): 1657. DOI : 10,3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 .    
  33. ^ Шапиро, Стюарт С. (1992). Энциклопедия искусственного интеллекта, том 1 . Нью-Йорк: John WIley & Sons, Inc., стр. 643–646. ISBN 978-0-471-50306-4.
  34. Перейти ↑ Kagami, Shingo (2010). «Высокоскоростные системы технического зрения и проекторы для восприятия мира в реальном времени». Конференция компьютерного общества IEEE 2010 года по компьютерному зрению и распознаванию образов - семинары . Конференция IEEE Computer Society по компьютерному зрению и распознаванию образов - семинары . 2010 . С. 100–107. DOI : 10,1109 / CVPRW.2010.5543776 . ISBN 978-1-4244-7029-7. S2CID  14111100 .
  35. ^ Сет Colaner (3 января 2016). «Третий тип процессора для VR / AR: Myriad 2 VPU от Movidius» . www.tomshardware.com .

Дальнейшее чтение [ править ]

  • Дэвид Марр (1982). Видение . WH Freeman and Company. ISBN 978-0-7167-1284-8.
  • Азриэль Розенфельд; Авинаш Как (1982). Цифровая обработка изображений . Академическая пресса. ISBN 978-0-12-597301-4.
  • Баргаут, Лорен; Лоуренс В. Ли (2003). Система обработки перцептивной информации . Заявка на патент США 10/618 543. ISBN 978-0-262-08159-7.
  • Бертольд К.П. Хорн (1986). Зрение робота . MIT Press. ISBN 978-0-262-08159-7.
  • Майкл С. Фэрхерст (1988). Компьютерное зрение для робототехнических систем . Прентис Холл. ISBN 978-0-13-166919-2.
  • Оливье Фожерас (1993). Трехмерное компьютерное зрение, геометрическая точка зрения . MIT Press. ISBN 978-0-262-06158-2.
  • Тони Линдеберг (1994). Теория масштабного пространства в компьютерном зрении . Springer. ISBN 978-0-7923-9418-1.
  • Джеймс Л. Кроули и Хенрик И. Кристенсен (редакторы) (1995). Видение как процесс . Springer-Verlag. ISBN 978-3-540-58143-7.CS1 maint: дополнительный текст: список авторов ( ссылка )
  • Гёста Х. Гранлунд; Ханс Кнутссон (1995). Обработка сигналов для компьютерного зрения . Kluwer Academic Publisher. ISBN 978-0-7923-9530-0.
  • Райнхард Клетте; Карстен Шлюенс; Андреас Кошан (1998). Компьютерное зрение - трехмерные данные из изображений . Спрингер, Сингапур. ISBN 978-981-3083-71-4.
  • Эмануэле Трукко; Алессандро Верри (1998). Вводные методы для трехмерного компьютерного зрения . Прентис Холл. ISBN 978-0-13-261108-4.
  • Бернд Яне (2002). Цифровая обработка изображений . Springer. ISBN 978-3-540-67754-3.
  • Ричард Хартли и Эндрю Зиссерман (2003). Многоканальная геометрия в компьютерном зрении . Издательство Кембриджского университета. ISBN 978-0-521-54051-3.
  • Жерар Медиони; Спой Бинг Кан (2004). Новые темы компьютерного зрения . Прентис Холл. ISBN 978-0-13-101366-7.
  • Р. Фишер; К. Доусон-Хау; А. Фитцгиббон; К. Робертсон; Э. Трукко (2005). Словарь компьютерного зрения и обработки изображений . Джон Вили. ISBN 978-0-470-01526-1.
  • Никос Парагиос, Юнмей Чен и Оливье Фогерас (2005). Справочник по математическим моделям компьютерного зрения . Springer. ISBN 978-0-387-26371-7.
  • Вильгельм Бургер; Марк Дж. Бердж (2007). Цифровая обработка изображений: алгоритмический подход с использованием Java . Springer . ISBN 978-1-84628-379-6.
  • Педрам Азад; Тило Гокель; Рюдигер Диллманн (2008). Компьютерное зрение - принципы и практика . Elektor International Media BV. ISBN 978-0-905705-71-2.
  • Ричард Селиски (2010). Компьютерное зрение: алгоритмы и приложения . Springer-Verlag. ISBN 978-1848829343.
  • Дж. Р. Паркер (2011). Алгоритмы обработки изображений и компьютерного зрения (2-е изд.) . Вайли. ISBN 978-0470643853.
  • Ричард Дж. Радке (2013). Компьютерное зрение для визуальных эффектов . Издательство Кембриджского университета. ISBN 978-0-521-76687-6.
  • Никсон, Марк; Агуадо, Альберто (2019). Извлечение функций и обработка изображений для компьютерного зрения (4-е изд.). Академическая пресса. ISBN 978-0128149768.

Внешние ссылки [ править ]

  • Список конференций USC Iris по компьютерному зрению
  • Документы по компьютерному зрению в Интернете . Полный список докладов наиболее актуальных конференций по компьютерному зрению.
  • Интернет- новости компьютерного зрения , исходный код, наборы данных и предложения о работе, связанные с компьютерным зрением.
  • Аннотированная библиография Кейта Прайса по компьютерному зрению
  • CVonline Компендиум Боба Фишера по компьютерному зрению.
  • Британская ассоциация машинного зрения Поддержка исследований компьютерного зрения в Великобритании через конференции BMVC и MIUA , Annals of BMVA (журнал с открытым исходным кодом), Летнюю школу BMVA и однодневные встречи
  • Контейнер компьютерного зрения, Джо Хеллер GitHub: широко распространенный контейнер с открытым исходным кодом для приложений компьютерного зрения с ускорением на GPU. Используется исследователями, университетами, частными компаниями, а также правительством США.