Автоматическая аннотация изображения

Автоматическое аннотирование изображения (также известное как автоматическая маркировка изображения или лингвистическое индексирование ) — это процесс, посредством которого компьютерная система автоматически присваивает цифровому изображению метаданные в виде субтитров или ключевых слов . Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска интересующих изображений в базе данных .

Этот метод можно рассматривать как разновидность многоклассовой классификации изображений с очень большим количеством классов, равным размеру словаря. Как правило, методы машинного обучения используют анализ изображений в виде извлеченных векторов признаков и обучающих аннотационных слов, чтобы пытаться автоматически применять аннотации к новым изображениям. Первые методы изучили корреляции между признаками изображения и обучающими аннотациями, затем были разработаны методы с использованием машинного перевода , чтобы попытаться перевести текстовый словарь с помощью «визуального словаря» или сгруппированных областей, известных как капли.. Работа, последовавшая за этими усилиями, включала подходы к классификации, модели релевантности и так далее.

Преимущества автоматического аннотирования изображений по сравнению с извлечением изображений на основе содержимого (CBIR) заключаются в том, что запросы могут быть более естественными для пользователя. ^[1] CBIR обычно (в настоящее время) требует, чтобы пользователи выполняли поиск по понятиям изображения, таким как цвет и текстура , или находили примеры запросов. Некоторые функции изображения в примерах изображений могут переопределять концепцию, на которой действительно сосредоточен пользователь. Традиционные методы поиска изображений, такие как используемые библиотеками, основаны на аннотированных вручную изображениях, что является дорогостоящим и трудоемким, особенно с учетом существующих больших и постоянно растущих баз данных изображений.