Калтех 101

Caltech 101 - это набор данных цифровых изображений, созданный в сентябре 2003 года и собранный Фей-Фей Ли , Марко Андреетто, Марком Аурелио Ранзато и Пьетро Перона из Калифорнийского технологического института . Он предназначен для облегчения исследований и методов компьютерного зрения и наиболее применим к методам, включающим классификацию и категоризацию распознавания изображений . Caltech 101 содержит в общей сложности 9146 изображений, разделенных на 101 отдельную категорию объектов ( лица , часы , муравьи , пианино).и т. д.) и фоновую категорию. К изображениям прилагается набор аннотаций, описывающих контуры каждого изображения, а также сценарий Matlab для просмотра.

Цель

Большинство алгоритмов компьютерного зрения и машинного обучения функционируют путем обучения на примерах входных данных. Для эффективной работы им требуется большой и разнообразный набор обучающих данных. Например, метод обнаружения лиц в реальном времени, используемый Полом Виолой и Майклом Дж. Джонсом, был обучен на 4916 лицах, помеченных вручную. ^[1]

Обрезка, изменение размера и ручная маркировка интересных мест утомительны и отнимают много времени.

Исторически сложилось так, что большинство наборов данных, используемых в исследованиях компьютерного зрения, были адаптированы к конкретным потребностям проекта, над которым ведется работа. Большой проблемой при сравнении методов компьютерного зрения является тот факт, что большинство групп используют свои собственные наборы данных. Каждый набор может иметь разные свойства, что затрудняет прямое сравнение результатов, полученных с помощью разных методов. Например, различия в размере изображения, качестве изображения, относительном расположении объектов на изображениях и уровне присутствия преграды и беспорядка могут привести к различным результатам. ^[2]

Набор данных Caltech 101 направлен на облегчение многих из этих общих проблем.

Изображения будут обрезаны и изменен размер.
Представлено множество категорий, что подходит как для алгоритмов распознавания одного, так и нескольких классов.
Обозначены подробные очертания объекта.
Доступный для общего использования, Caltech 101 действует как общий стандарт для сравнения различных алгоритмов без предвзятости из-за разных наборов данных.

Однако недавнее исследование ^[3] демонстрирует, что тесты, основанные на неконтролируемых естественных изображениях (таких как набор данных Caltech 101), могут серьезно вводить в заблуждение, потенциально направляя прогресс в неправильном направлении.

Набор данных

Изображений

Набор данных Caltech 101 состоит из 9 146 изображений, разделенных на 101 категорию объектов, а также дополнительную категорию фона / помех.

Каждая категория объектов содержит от 40 до 800 изображений. Общие и популярные категории, такие как лица, как правило, содержат больше изображений, чем другие.

Каждое изображение имеет размер около 300x200 пикселей. Изображения ориентированных объектов, таких как самолеты и мотоциклы, зеркально отображались с выравниванием слева направо, а вертикально ориентированные конструкции, такие как здания, были повернуты вне оси.

Аннотации

К каждому изображению предоставляется набор аннотаций. Каждый набор аннотаций содержит две части информации: общую ограничивающую рамку, в которой расположен объект, и подробный контур объекта, определяемый человеком.

Сценарий Matlab снабжен аннотациями. Он загружает изображение и соответствующий ему файл аннотации и отображает их как фигуру Matlab.

Использует

Набор данных Caltech 101 использовался для обучения и тестирования нескольких алгоритмов распознавания и классификации компьютерного зрения. Первой статьей, в которой использовался Caltech 101, был поэтапный байесовский подход к однократному обучению ^[4] , попытка классифицировать объект, используя лишь несколько примеров, основываясь на предварительных знаниях других классов.

Изображения Caltech 101, вместе с аннотациями, были использованы для еще одной краткой обучающей статьи в Caltech. ^[5]

Другие документы по компьютерному зрению, в которых сообщается об использовании набора данных Caltech 101, включают:

Сопоставление форм и распознавание объектов с использованием соответствия с низким уровнем искажений. Александр С. Берг, Тамара Л. Берг, Джитендра Малик . CVPR 2005
Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г. ^[6]
Объединение генеративных моделей и ядер Фишера для распознавания классов объектов. Голуб, А.Д. Веллинг, М. Перона, П. Международная конференция по компьютерному зрению (ICCV), 2005 г. ^[7]
Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции IEEE Computer Society 2005 г. по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г. ^[8]
SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик . CVPR, 2006 ^[9]
За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник , Корделия Шмид и Жан Понсе. CVPR, 2006 ^[10]
Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов. MJ Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г. ^[11]
Распознавание мультиклассовых объектов с редкими локализованными функциями. Джим Матч и Дэвид Г. Лоу., Стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г. ^[12]
Использование зависимых регионов или категоризации объектов в генеративной структуре. Г. Ван, Ю. Чжан, Л. Фэй-Фэй. IEEE Comp. Vis. Патт. Recog. 2006 ^[13]

Анализ и сравнение

Преимущества

Caltech 101 имеет несколько преимуществ перед другими подобными наборами данных:

Единый размер и представление:
- Почти все изображения в каждой категории имеют одинаковый размер и взаимное расположение интересующих объектов. Пользователям Caltech 101 обычно не нужно обрезать или масштабировать изображения перед их использованием.
Низкий уровень беспорядка / засорения:
- Алгоритмы, связанные с распознаванием, обычно работают, сохраняя особенности, уникальные для объекта. Однако большинство сделанных изображений имеют разную степень загромождения фона, что означает, что алгоритмы могут строиться некорректно.
Подробные аннотации

Слабые стороны

Слабые стороны набора данных Caltech 101 ^[3]^[14] могут быть сознательными компромиссами, но другие - ограничениями набора данных. Статьи, основанные исключительно на Caltech 101, часто отклоняются.

К недостаткам можно отнести:

Набор данных слишком чистый:
- Изображения очень единообразны в представлении, выровнены слева направо и обычно не закрыты. В результате изображения не всегда представляют практические входные данные, которые алгоритм мог бы впоследствии ожидать увидеть. В практических условиях изображения более загромождены, затемнены и демонстрируют большую разницу в относительном положении и ориентации интересующих объектов. Единообразие позволяет выводить концепции с использованием среднего значения категории, что нереально.
Ограниченное количество категорий:
- Набор данных Caltech 101 представляет лишь небольшую часть возможных категорий объектов.
Некоторые категории содержат несколько изображений:
- Некоторые категории представлены не так хорошо, как другие, содержащие всего 31 изображение.
- Это значит, что ${\ displaystyle \ mathrm {N} _ {\ mathrm {train}} \ leq 30}$ . Количество изображений, используемых для обучения, должно быть меньше или равно 30, что недостаточно для всех целей.
Псевдонимы и артефакты из-за манипуляций:
- Некоторые изображения были повернуты и масштабированы относительно своей исходной ориентации и страдают от некоторого количества артефактов или сглаживания .

Другие наборы данных

Caltech 256 - это еще один набор данных изображения, созданный в 2007 году. Он является преемником Caltech 101. Он предназначен для устранения некоторых слабых сторон Caltech 101. В целом, это более сложный набор данных, чем Caltech 101, но он страдает от недостатков. сопоставимые проблемы. Включает ^[3]
- 30 607 изображений, охватывающих большее количество категорий
- Минимальное количество изображений в категории увеличено до 80
- Изображения не выровнены по левому и правому краям
- Больше вариаций в представлении изображений
LabelMe - это открытый динамический набор данных, созданный в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). LabelMe использует другой подход к проблеме создания большого набора данных изображения с различными компромиссами.
- 106 739 изображений, 41 724 аннотированных изображения и 203 363 помеченных объекта.
- Пользователи могут добавлять изображения к набору данных путем загрузки, а также добавлять ярлыки или аннотации к существующим изображениям.
- Из-за своей открытой природы LabelMe имеет гораздо больше изображений, охватывающих гораздо более широкий диапазон, чем Caltech 101. Однако, поскольку каждый человек решает, какие изображения загружать, а также как маркировать и аннотировать каждое изображение, изображения менее согласованы.
VOC 2008 - это европейский проект по сбору изображений для тестирования методов визуальной категоризации. По сравнению с Caltech 101/256 собрано меньшее количество категорий (около 20). Однако количество изображений в каждой категории больше.
Набор данных исследования накладных изображений (OIRDS) - это аннотированная библиотека изображений и инструментов. ^[15] OIRDS v1.0 состоит из объектов пассажирских транспортных средств, аннотированных на изображениях сверху. К легковым транспортным средствам в OIRDS относятся автомобили, грузовики, фургоны и т. Д. Помимо контуров объектов, OIRDS включает субъективную и объективную статистику, которая дает количественную оценку транспортного средства в контексте изображения. Например, субъективные измерения беспорядка на изображении, четкости, шума и цвета транспортного средства включены вместе с более объективной статистикой, такой как расстояние от земли до образца (GSD), время суток и день года.
- ~ 900 изображений, содержащих ~ 1800 изображений с аннотациями
- ~ 30 аннотаций на объект
- ~ 60 статистических измерений на объект
- Широкое разнообразие контекста объекта
- Только легковые автомобили на изображениях сверху
MICC-Flickr 101 - это набор данных изображения, созданный в Центре интеграции и коммуникации СМИ (MICC) Университета Флоренции в 2012 году. Он основан на Caltech 101 и собран с Flickr . MICC-Flickr 101 ^[16] исправляет главный недостаток Caltech 101, то есть его низкую межклассовую изменчивость и предоставляет социальные аннотации с помощью пользовательских тегов. Он основан на стандартном и широко используемом наборе данных, состоящем из управляемого количества категорий (101), и поэтому может использоваться для сравнения производительности категоризации объектов в ограниченном сценарии (Caltech 101) и категоризации объектов «в дикой природе» (MICC-Flickr 101) по той же 101 категории.

Смотрите также

Список наборов данных для исследования машинного обучения
База данных MNIST
LabelMe

Внешние ссылки

http://www.vision.caltech.edu/Image_Datasets/Caltech101/ - Домашняя страница Caltech 101 (включая загрузку)
http://www.vision.caltech.edu/Image_Datasets/Caltech256/ - Домашняя страница Caltech 256 (включая загрузку)
http://labelme.csail.mit.edu/ -LabelMe Домашняя страница
http://www2.it.lut.fi/project/visiq/ - Произвольная страница загрузки Caltech 101 (включая загрузку)
http://www.micc.unifi.it/vim/datasets/micc-flickr-101/ -MICC-Flickr101 Домашняя страница (включая загрузку)

[Viola_Jones-1] Виола, Пол; Джонс, Майкл Дж. (2004). «Надежное обнаружение лиц в реальном времени». Международный журнал компьютерного зрения . 57 (2): 137–154. DOI : 10,1023 / Б: VISI.0000013087.49260.fb . S2CID 2796017 .

[oertel-2] Эртель, Карстен; Холоднее, Брайан; Коломб, Джеффри; Высокий, Джулия; Инграм, Майкл; Салли, Фил (2008). «Актуальные проблемы автоматизации зрительного восприятия». 2008 37-й семинар IEEE по распознаванию образов в прикладных изображениях . С. 1–8. DOI : 10,1109 / AIPR.2008.4906457 . ISBN 978-1-4244-3125-0. S2CID 36669995 .

[pinto_et_al_2008-3] а б в Пинто, Николас; Кокс, Дэвид Д.; Дикарло, Джеймс Дж. (2008). «Почему трудно распознавать визуальные объекты в реальном мире?» . PLOS вычислительная биология . 4 (1): e27. DOI : 10.1371 / journal.pcbi.0040027 . PMC 2211529 . PMID 18225950 .

[OneShot-4] Л. Фей-Фей, Р. Фергус и П. Перона. Изучение генеративных визуальных моделей на нескольких обучающих примерах: пошаговый байесовский подход, протестированный на 101 категории объектов. IEEE. CVPR 2004, семинар по видению на основе генеративных моделей. 2004 г.

[OneShot2-5] Л. Фей-Фэй; Р. Фергус; П. Перона (апрель 2006 г.). «Однократное изучение категорий объектов» (PDF) . IEEE Trans. Анализ шаблонов и машинный интеллект . 28 (4): 594–611. Архивировано из оригинального (PDF) 09.06.2007 . Проверено 16 января 2008 .

[6] Ядро соответствия пирамиды: дискриминационная классификация с наборами характеристик изображения. К. Грауман и Т. Даррелл. Международная конференция по компьютерному зрению (ICCV), 2005 г.

[7] Голуб, AD; Веллинг, М; Перона П. Объединение генеративных моделей и ядер Фишера для распознавания классов объектов . Международная конференция по компьютерному зрению (ICCV), 2005. Архивированы из оригинала на 2007-08-14 . Проверено 16 января 2008 .

[8] Распознавание объектов с помощью функций, вдохновленных Visual Cortex. Т. Серр, Л. Вольф и Т. Поджио. Материалы конференции 2005 г. IEEE Computer Society по компьютерному зрению и распознаванию образов (CVPR 2005), IEEE Computer Society Press, Сан-Диего, июнь 2005 г.

[9] SVM-KNN: Дискриминационная классификация ближайшего соседа для визуального распознавания категорий. Хао Чжан, Алекс Берг, Майкл Мэйр, Джитендра Малик. CVPR, 2006 г.

[10] За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен. Светлана Лазебник , Корделия Шмид и Жан Понсе. CVPR, 2006 г.

[11] Эмпирическое исследование многомасштабных банков фильтров для категоризации объектов, MJ Mar -Jim ez и N. P ez de la Blanca. Декабрь 2005 г.

[12] Распознавание мультиклассовых объектов с разреженными, локализованными функциями, Джим Матч и Дэвид Г. Лоу. , стр. 11-18, CVPR 2006, IEEE Computer Society Press, Нью-Йорк, июнь 2006 г.

[13] Г. Ван; Ю. Чжан; Л. Фей-Фэй (2006). «Использование зависимых областей или категоризации объектов в генеративной структуре» (PDF) . IEEE Comp. Vis. Патт. Recog . Архивировано из оригинального (PDF) 09.06.2007 . Проверено 16 января 2008 .

[14] Дж. Понсе; Т.Л. Берг; М. Эверингем; Д.А. Форсайт; М. Хеберт; С. Лазебник ; М. Маршалек; К. Шмид; BC Russell; А. Торральба; CKI Williams; Дж. Чжан; А. Зиссерман (2006). Дж. Понсе; М. Хеберт; К. Шмид; А. Зиссерман (ред.). «Проблемы с набором данных при распознавании объектов» (PDF) . К распознаванию объектов на уровне категорий, Лекционные заметки Springer-Verlag по информатике. Архивировано из оригинального (PDF) 24 декабря 2016 года . Проверено 8 февраля 2008 .

[OIRDSVehicles-15] Ф. Таннер, Б. Холоднее, С. Палльна, Д. Heagy, С. Эртель, и П. Sallee, Накладные Образности Research Data Set (OIRDS) - аннотированные библиотеки и инструменты данных для оказания помощи в разработке алгоритмов компьютерного зрения , Июнь 2009 г., < http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Документация, заархивированная 9 ноября2012 г. на Wayback Machine > (28 декабря 2009 г.)

[ballan_et_al_2012-16] "Л. Баллан, М. Бертини, А. Дель Бимбо, А. М. Серен, Г. Серра, Б. Ф. Закконе. Объединение генеративных и дискриминирующих моделей для классификации социальных изображений из 101 категории объектов. Международная конференция по распознаванию образов (ICPR), 2012" (PDF) . Архивировано из оригинального (PDF) 26 августа 2014 года . Проверено 11 июля 2012 .

[1]