Автоматическое аннотирование изображения (также известное как автоматическая пометка изображений или лингвистическая индексация ) представляет собой процесс , с помощью которого компьютерной система автоматически присваивает метаданные в форме Captioning или ключевые слов к цифровому изображению . Это приложение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .
Этот метод можно рассматривать как тип мультиклассовой классификации изображений с очень большим количеством классов - размером со словарный запас. Как правило, анализ изображений в виде извлеченных векторов признаков и обучающих слов аннотаций используется методами машинного обучения , чтобы попытаться автоматически применить аннотации к новым изображениям. Первые методы изучали корреляцию между функциями изображения и обучающими аннотациями, затем были разработаны методы с использованием машинного перевода, чтобы попытаться перевести текстовый словарь с помощью `` визуального словаря '' или сгруппированных областей, известных как капли.. Работа, последовавшая за этими усилиями, включала подходы к классификации, модели релевантности и так далее.
Преимущества автоматической аннотации изображений по сравнению с поиском изображений на основе содержимого (CBIR) заключаются в том, что запросы могут быть более естественным образом заданы пользователем. [1] CBIR обычно (в настоящее время) требует от пользователей поиска по таким понятиям изображения, как цвет и текстура , или поиск примеров запросов. Некоторые особенности изображения в примерах изображений могут переопределить концепцию, на которой действительно сосредоточен пользователь. Традиционные методы поиска изображений, такие как те, которые используются библиотеками, основаны на вручную аннотированных изображениях, что является дорогостоящим и требует много времени, особенно с учетом существующих больших и постоянно растущих баз данных изображений.
Смотрите также
Рекомендации
- Датта, Ритендра; Дхирадж Джоши; Цзя Ли; Джеймс З. Ван (2008). «Поиск изображений: идеи, влияния и тенденции новой эпохи» . ACM Computing Surveys . 40 (2): 1–60. DOI : 10.1145 / 1348246.1348248 . S2CID 7060187 .
- Николя Эрве; Ножа Бужемаа (2007). «Аннотации к изображениям: какой подход для реалистичных баз данных?» (PDF) . Международная конференция ACM по поиску изображений и видео . Архивировано из оригинального (PDF) 20 мая 2011 года.
- М. Иноуэ (2004). «О необходимости поиска изображений на основе аннотаций» (PDF) . Практикум по поиску информации в контексте . С. 44–46. Архивировано из оригинального (PDF) 08.08.2014.
дальнейшее чтение
- Модель совместной встречаемости слов
- Y Mori; Х. Такахаши и Р. Ока (1999). «Преобразование изображения в слово на основе разделения и векторного квантования изображений словами.». Труды международного семинара по мультимедийному интеллектуальному управлению хранением и извлечением . CiteSeerX 10.1.1.31.1704 .
- Аннотация как машинный перевод
- П. Дуйгулу; К. Барнард; Н. де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений» . Труды Европейской конференции по компьютерному зрению . С. 97–112. Архивировано из оригинала на 2005-03-05.
- Статистические модели
- Дж. Ли и Дж. Зи Ван (2006). «Компьютеризированная аннотация изображений в реальном времени» . Proc. ACM Multimedia . С. 911–920.
- Дж. З. Ван и Дж. Ли (2002). «Лингвистическое индексирование изображений на основе обучения с помощью двумерных MHMM» . Proc. ACM Multimedia . С. 436–445.
- Автоматическая лингвистическая индексация картинок
- Дж. Ли и Дж. Зи Ван (2008). «Компьютеризированная аннотация изображений в реальном времени» . IEEE Transactions по анализу шаблонов и машинному анализу .
- Дж. Ли и Дж. Зи Ван (2003). "Автоматическое лингвистическое индексирование изображений методом статистического моделирования" . IEEE Transactions по анализу шаблонов и машинному анализу . С. 1075–1088.
- Иерархическая модель кластера аспектов
- К. Барнард; Д.А. Форсайт (2001). «Изучение семантики слов и изображений» . Материалы международной конференции по компьютерному зрению . С. 408–415. Архивировано из оригинала на 2007-09-28.
- Скрытая модель распределения Дирихле
- D Blei; A Ng & M Jordan (2003). «Скрытое размещение Дирихле» (PDF) . Журнал исследований в области машинного обучения . С. 3: 993–1022. Архивировано из оригинального (PDF) 21 мая 2005 года.
- Дж. Карнейро; А.Б. Чан; П. Морено и Н. Васконселос (2006). «Обучение с учителем семантических классов для аннотации и поиска изображений» (PDF) . IEEE Transactions по анализу шаблонов и машинному анализу . С. 394–410.
- Сходство текстуры
- RW Пикард и Т.П. Минка (1995). «Визуальная текстура для аннотации» . Мультимедийные системы .
- Машины опорных векторов
- C Cusano; Дж. Чокка и Р. Скеттини (2004). «Аннотация изображения с помощью SVM». Труды Internet Imaging IV . Интернет - визуализации V . 5304 . п. 330. Bibcode : 2003SPIE.5304..330C . DOI : 10.1117 / 12.526746 .
- Ансамбль деревьев решений и случайных подокон
- Р. Мари; P Geurts; Дж. Пиатер и Л. Вехенкель (2005). «Случайные подокна для надежной классификации изображений» . Труды Международной конференции IEEE по компьютерному зрению и распознаванию образов . С. 1: 34–30.
- Максимальная энтропия
- J Jeon; Р Манматха (2004). «Использование максимальной энтропии для автоматического аннотирования изображений» (PDF) . Международная конференция по поиску изображений и видео (CIVR 2004) . С. 24–32.
- Модели релевантности
- J Jeon; В Лавренко и Р. Манматха (2003). «Автоматическое аннотирование и поиск изображений с использованием моделей релевантности в разных средах» (PDF) . Материалы конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . С. 119–126.
- Модели релевантности, использующие непрерывные функции плотности вероятности
- В. Лавренко; Р. Манматха и Дж. Чон (2003). «Модель для изучения семантики картинок» (PDF) . Труды 16-й конференции по достижениям в системах обработки нейронной информации NIPS .
- Связная языковая модель
- Р Джин; JY Chai; Л. Си (2004). «Эффективное автоматическое аннотирование изображений с помощью согласованной языковой модели и активного обучения» (PDF) . Материалы ММ'04 .
- Сети вывода
- Д. Метцлер и Р. Манматха (2004). «Сетевой подход к поиску изображений» (PDF) . Материалы Международной конференции по поиску изображений и видео . С. 42–50.
- Множественное распределение Бернулли
- S Feng; Р. Манматха и В. Лавренко (2004). «Множественные модели релевантности Бернулли для аннотаций к изображениям и видео» (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов . С. 1002–1009.
- Множественные альтернативы дизайна
- JY Pan; HJ Yang; П. Дуйгулу; C Фалаутсос (2004). «Автоматические подписи к изображениям» (PDF) . Материалы Международной конференции IEEE 2004 г. по мультимедиа и выставкам (ICME'04) . Архивировано из оригинального (PDF) 09 декабря 2004 года.
- Подписи к изображениям
- Куан Хоанг Лам; Куанг Дуй Ле; Киет Ван Нгуен; Нган Луу-Туи Нгуен (2020). «UIT-ViIC: набор данных для первой оценки вьетнамских подписей к изображениям» . Материалы Международной конференции по вычислительному коллективному разуму 2020 г. (ICCCI 2020) . arXiv : 2002.00175 . DOI : 10.1007 / 978-3-030-63007-2_57 .
- Аннотация естественной сцены
- J Fan; Y Gao; H Luo; Джи Сюй (2004). «Автоматическая аннотация изображения с помощью концептуально-чувствительных значимых объектов для представления содержимого изображения» . Материалы 27-й ежегодной международной конференции «Исследования и разработки в области информационного поиска» . С. 361–368.
- Соответствующие низкоуровневые глобальные фильтры
- Олива и Торральба (2001). «Моделирование формы сцены: целостное представление пространственной оболочки» (PDF) . Международный журнал компьютерного зрения . С. 42: 145–175.
- Глобальные характеристики изображения и непараметрическая оценка плотности
- Явлинский, Э. Шофилд и С. Рюгер (2005). «Автоматическое аннотирование изображений с использованием глобальных функций и надежной непараметрической оценки плотности» (PDF) . Международная конференция по поиску изображений и видео (CIVR, Сингапур, июль 2005 г.) . Архивировано из оригинального (PDF) 20 декабря 2005 года.
- Семантика видео
- Н. Васконселос и А. Липпман (2001). «Статистические модели структуры видео для анализа содержания и характеристики» (PDF) . IEEE Transactions по обработке изображений . С. 1–17.
- Илария Бартолини; Марко Пателла и Коррадо Романи (2010). «Шиацу: семантическая иерархическая автоматическая маркировка видео с помощью сегментации с использованием сокращений» . 3-й международный мультимедийный семинар ACM по автоматизированному извлечению информации в медиа-производстве (AIEMPro10) .
- Уточнение аннотации изображения
- Йохан Джин; Латифур Хан ; Лей Ван и Мамун Авад (2005). «Аннотации изображений путем объединения нескольких доказательств и wordNet» . 13-я ежегодная международная конференция ACM по мультимедиа (MM 05) . С. 706–715.
- Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2006). «Уточнение аннотации изображений с помощью случайного блуждания с перезапусками» . 14-я ежегодная международная конференция ACM по мультимедиа (MM 06) .
- Чанху Ван; Фэн Цзин; Лэй Чжан и Хун-Цзян Чжан (2007). «Уточнение аннотаций к изображениям на основе содержимого». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR 07) . DOI : 10,1109 / CVPR.2007.383221 .
- Илария Бартолини и Паоло Чачча (2007). «Воображение: использование анализа ссылок для точной аннотации изображений». Springer Adaptive Multimedia Retrieval . DOI : 10.1007 / 978-3-540-79860-6_3 .
- Илария Бартолини и Паоло Чаччиа (2010). «Аннотации и поиск изображений на основе многомерных ключевых слов» . 2-й международный семинар ACM по поиску по ключевым словам в структурированных данных (KEYS 2010) .
- Автоматическая аннотация изображения ансамблем визуальных дескрипторов
- Эмре Акбас и Фатос Ю. Вурал (2007). «Автоматическая аннотация изображения ансамблем визуальных дескрипторов». Intl. Конф. по компьютерному зрению (CVPR) 2007, семинар по приложениям семантического обучения в мультимедиа . DOI : 10,1109 / CVPR.2007.383484 .
- Новая основа для аннотаций к изображениям
- Амиш Макадиа, Владимир Павлович и Санджив Кумар (2008). «Новая основа для аннотаций к изображениям» (PDF) . Европейская конференция по компьютерному зрению (ECCV) .
Одновременная классификация изображений и аннотации
- Чонг Ван, Дэвид Блей и Ли Фей-Фэй (2009). «Одновременная классификация и аннотация изображений» (PDF) . Конф. по компьютерному зрению и распознаванию образов (CVPR) .
- TagProp: изучение дискриминантных показателей в моделях ближайшего соседа для автоаннотации изображений
- Матье Гийомен, Томас Менсинк, Якоб Вербеек и Корделия Шмид (2009). «TagProp: изучение дискриминантных показателей в моделях ближайшего соседа для автоаннотации изображений» (PDF) . Intl. Конф. по компьютерному зрению (ICCV) .
- Аннотация изображения с использованием метрического обучения в семантических окрестностях
- Яшасви Верма и CV Джавахар (2012). «Аннотация изображения с использованием метрического обучения в семантических окрестностях» (PDF) . Европейская конференция по компьютерному зрению (ECCV) . Архивировано из оригинального (PDF) 14 мая 2013 года . Проверено 26 февраля 2014 .
- Автоматическая аннотация изображения с использованием представлений глубокого обучения
- Венкатеш Н. Мурти, Субхрансу Маджи и Р. Манматха (2015). «Автоматическое аннотирование изображений с использованием представлений глубокого обучения» (PDF) . Международная конференция по мультимедиа (ICMR) .
- Аннотации медицинских изображений с использованием байесовских сетей и активного обучения
- Н. Б. Марвасти, Э. Йорук и Б. Акар (2018). "Компьютерная аннотация медицинских изображений: предварительные результаты с поражением печени в компьютерной томографии" . Журнал IEEE по биомедицинской и медицинской информатике .