Автоматическая аннотация изображения

Автоматическое аннотирование изображения (также известное как автоматическая пометка изображений или лингвистическая индексация ) представляет собой процесс , с помощью которого компьютерной система автоматически присваивает метаданные в форме Captioning или ключевые слов к цифровому изображению . Это приложение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .

Этот метод можно рассматривать как тип мультиклассовой классификации изображений с очень большим количеством классов - размером со словарный запас. Как правило, анализ изображений в виде извлеченных векторов признаков и обучающих слов аннотаций используется методами машинного обучения , чтобы попытаться автоматически применить аннотации к новым изображениям. Первые методы изучали корреляцию между функциями изображения и обучающими аннотациями, затем были разработаны методы с использованием машинного перевода, чтобы попытаться перевести текстовый словарь с помощью `` визуального словаря '' или сгруппированных областей, известных как капли.. Работа, последовавшая за этими усилиями, включала подходы к классификации, модели релевантности и так далее.

Преимущества автоматической аннотации изображений по сравнению с поиском изображений на основе содержимого (CBIR) заключаются в том, что запросы могут быть более естественным образом заданы пользователем. ^[1] CBIR обычно (в настоящее время) требует от пользователей поиска по таким понятиям изображения, как цвет и текстура , или поиск примеров запросов. Некоторые особенности изображения в примерах изображений могут переопределить концепцию, на которой действительно сосредоточен пользователь. Традиционные методы поиска изображений, такие как те, которые используются библиотеками, основаны на вручную аннотированных изображениях, что является дорогостоящим и требует много времени, особенно с учетом существующих больших и постоянно растущих баз данных изображений.

Смотрите также

дальнейшее чтение

Модель совместной встречаемости слов

Y Mori; Х. Такахаши и Р. Ока (1999). «Преобразование изображения в слово на основе разделения и векторного квантования изображений словами.». Труды международного семинара по мультимедийному интеллектуальному управлению хранением и извлечением . CiteSeerX 10.1.1.31.1704 .

Аннотация как машинный перевод

П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Труды Европейской конференции по компьютерному зрению . С. 97–112. Архивировано из оригинала на 2005-03-05.

Статистические модели

Дж. Ли и Дж. Зи Ван (2006). «Компьютеризированная аннотация изображений в реальном времени» . Proc. ACM Multimedia . С. 911–920.

Дж. З. Ван и Дж. Ли (2002). «Лингвистическое индексирование изображений на основе обучения с помощью двумерных MHMM» . Proc. ACM Multimedia . С. 436–445.

Автоматическая лингвистическая индексация картинок

Дж. Ли и Дж. Зи Ван (2008). «Компьютеризированная аннотация изображений в реальном времени» . IEEE Transactions по анализу шаблонов и машинному анализу .

Дж. Ли и Дж. Зи Ван (2003). "Автоматическое лингвистическое индексирование изображений методом статистического моделирования" . IEEE Transactions по анализу шаблонов и машинному анализу . С. 1075–1088.

Иерархическая модель кластера аспектов

К. Барнард; Д.А. Форсайт (2001). «Изучение семантики слов и изображений» . Материалы международной конференции по компьютерному зрению . С. 408–415. Архивировано из оригинала на 2007-09-28.

Скрытая модель распределения Дирихле

D Blei; A Ng & M Jordan (2003). «Скрытое размещение Дирихле» (PDF) . Журнал исследований в области машинного обучения . С. 3: 993–1022. Архивировано из оригинального (PDF) 21 мая 2005 года.

Контролируемая мультиклассовая маркировка

Дж. Карнейро; А.Б. Чан; П. Морено и Н. Васконселос (2006). «Обучение с учителем семантических классов для аннотации и поиска изображений» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . С. 394–410.

Сходство текстуры

RW Пикард и Т.П. Минка (1995). «Визуальная текстура для аннотации» . Мультимедийные системы .

Машины опорных векторов

C Cusano; Дж. Чокка и Р. Скеттини (2004). «Аннотация изображения с помощью SVM». Труды Internet Imaging IV . Интернет - визуализации V . 5304 . п. 330. Bibcode : 2003SPIE.5304..330C . DOI : 10.1117 / 12.526746 .

Ансамбль деревьев решений и случайных подокон

Р. Мари; P Geurts; Дж. Пиатер и Л. Вехенкель (2005). «Случайные подокна для надежной классификации изображений» . Труды Международной конференции IEEE по компьютерному зрению и распознаванию образов . С. 1: 34–30.

Максимальная энтропия

J Jeon; Р Манматха (2004). «Использование максимальной энтропии для автоматического аннотирования изображений» (PDF) . Международная конференция по поиску изображений и видео (CIVR 2004) . С. 24–32.

Модели релевантности

J Jeon; В Лавренко и Р. Манматха (2003). «Автоматическое аннотирование и поиск изображений с использованием моделей релевантности в разных средах» (PDF) . Материалы конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . С. 119–126.

Модели релевантности, использующие непрерывные функции плотности вероятности

В. Лавренко; Р. Манматха и Дж. Чон (2003). «Модель для изучения семантики картинок» (PDF) . Труды 16-й конференции по достижениям в системах обработки нейронной информации NIPS .

Связная языковая модель

Р Джин; JY Chai; Л. Си (2004). «Эффективное автоматическое аннотирование изображений с помощью согласованной языковой модели и активного обучения» (PDF) . Материалы ММ'04 .

Сети вывода

Д. Метцлер и Р. Манматха (2004). «Сетевой подход к поиску изображений» (PDF) . Материалы Международной конференции по поиску изображений и видео . С. 42–50.

Множественное распределение Бернулли

S Feng; Р. Манматха и В. Лавренко (2004). «Множественные модели релевантности Бернулли для аннотаций к изображениям и видео» (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов . С. 1002–1009.

Множественные альтернативы дизайна

JY Pan; HJ Yang; П. Дуйгулу; C Фалаутсос (2004). «Автоматические подписи к изображениям» (PDF) . Материалы Международной конференции IEEE 2004 г. по мультимедиа и выставкам (ICME'04) . Архивировано из оригинального (PDF) 09 декабря 2004 года.

Подписи к изображениям

Куан Хоанг Лам; Куанг Дуй Ле; Киет Ван Нгуен; Нган Луу-Туи Нгуен (2020). «UIT-ViIC: набор данных для первой оценки вьетнамских подписей к изображениям» . Материалы Международной конференции по вычислительному коллективному разуму 2020 г. (ICCCI 2020) . arXiv : 2002.00175 . DOI : 10.1007 / 978-3-030-63007-2_57 .

Аннотация естественной сцены

J Fan; Y Gao; H Luo; Джи Сюй (2004). «Автоматическая аннотация изображения с помощью концептуально-чувствительных значимых объектов для представления содержимого изображения» . Материалы 27-й ежегодной международной конференции «Исследования и разработки в области информационного поиска» . С. 361–368.

Соответствующие низкоуровневые глобальные фильтры

Олива и Торральба (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF) . Международный журнал компьютерного зрения . С. 42: 145–175.

Глобальные характеристики изображения и непараметрическая оценка плотности

Явлинский, Э. Шофилд и С. Рюгер (2005). «Автоматическое аннотирование изображений с использованием глобальных функций и надежной непараметрической оценки плотности» (PDF) . Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.) . Архивировано из оригинального (PDF) 20 декабря 2005 года.

Семантика видео

Н. Васконселос и А. Липпман (2001). «Статистические модели структуры видео для анализа содержания и характеристики» (PDF) . IEEE Transactions по обработке изображений . С. 1–17.

Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: семантическая иерархическая автоматическая маркировка видео с помощью сегментации с использованием сокращений» . 3-й международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиа-производстве (AIEMPro10) .

Уточнение аннотации изображения

Йохан Джин; Латифур Хан ; Лей Ван и Мамун Авад (2005). «Аннотации изображений путем объединения нескольких доказательств и wordNet» . 13-я ежегодная международная конференция ACM по мультимедиа (MM 05) . С. 706–715.

Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2006). «Уточнение аннотации изображений с помощью случайного блуждания с перезапусками» . 14-я ежегодная международная конференция ACM по мультимедиа (MM 06) .

Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2007). «Уточнение аннотаций к изображениям на основе содержимого». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07) . DOI : 10,1109 / CVPR.2007.383221 .

Илария Бартолини и Паоло Чачча (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Springer Adaptive Multimedia Retrieval . DOI : 10.1007 / 978-3-540-79860-6_3 .

Илария Бартолини и Паоло Чаччиа (2010). «Аннотации и поиск изображений на основе многомерных ключевых слов» . 2-й международный семинар ACM по поиску по ключевым словам в структурированных данных (KEYS 2010) .

Автоматическая аннотация изображения ансамблем визуальных дескрипторов

Эмре Акбас и Фатос Ю. Вурал (2007). «Автоматическая аннотация изображения ансамблем визуальных дескрипторов». Intl. Конф. по компьютерному зрению (CVPR) 2007, семинар по приложениям семантического обучения в мультимедиа . DOI : 10,1109 / CVPR.2007.383484 .

Новая основа для аннотаций к изображениям

Амиш Макадиа, Владимир Павлович и Санджив Кумар (2008). «Новая основа для аннотаций к изображениям» (PDF) . Европейская конференция по компьютерному зрению (ECCV) .

Одновременная классификация изображений и аннотации

Чонг Ван, Дэвид Блей и Ли Фей-Фэй (2009). «Одновременная классификация и аннотация изображений» (PDF) . Конф. по компьютерному зрению и распознаванию образов (CVPR) .

TagProp: изучение дискриминантных показателей в моделях ближайшего соседа для автоаннотации изображений

Матье Гийомен, Томас Менсинк, Якоб Вербеек и Корделия Шмид (2009). «TagProp: изучение дискриминантных показателей в моделях ближайшего соседа для автоаннотации изображений» (PDF) . Intl. Конф. по компьютерному зрению (ICCV) .

Аннотация изображения с использованием метрического обучения в семантических окрестностях

Яшасви Верма и CV Джавахар (2012). «Аннотация изображения с использованием метрического обучения в семантических окрестностях» (PDF) . Европейская конференция по компьютерному зрению (ECCV) . Архивировано из оригинального (PDF) 14 мая 2013 года . Проверено 26 февраля 2014 .

Автоматическая аннотация изображения с использованием представлений глубокого обучения

Венкатеш Н. Мурти, Субхрансу Маджи и Р. Манматха (2015). «Автоматическое аннотирование изображений с использованием представлений глубокого обучения» (PDF) . Международная конференция по мультимедиа (ICMR) .

Аннотации медицинских изображений с использованием байесовских сетей и активного обучения

Н. Б. Марвасти, Э. Йорук и Б. Акар (2018). "Компьютерная аннотация медицинских изображений: предварительные результаты с поражением печени в компьютерной томографии" . Журнал IEEE по биомедицинской и медицинской информатике .

[1] [1]

[1]

Автоматическая аннотация изображения

Смотрите также

Рекомендации

дальнейшее чтение