Категоризация объектов из поиска изображений

В компьютерном зрении проблема категоризации объектов из поиска изображений — это проблема обучения классификатора распознаванию категорий объектов с использованием только изображений, автоматически извлеченных с помощью поисковой системы в Интернете . В идеале, автоматический сбор изображений позволил бы обучать классификаторы только с именами категорий в качестве входных данных. Эта проблема тесно связана с проблемой поиска изображений на основе содержимого (CBIR), где цель состоит в том, чтобы вернуть лучшие результаты поиска изображений, а не обучать классификатор распознаванию изображений.

Традиционно классификаторы обучаются с использованием наборов изображений, помеченных вручную. Сбор такого набора изображений часто является очень трудоемким и трудоемким процессом. Использование поисковых систем в Интернете для автоматизации процесса получения больших наборов помеченных изображений было описано как потенциальный способ значительно облегчить исследования в области компьютерного зрения. ^[1]

Одной из проблем использования результатов поиска изображений в Интернете в качестве обучающей выборки для классификатора является высокий процент несвязанных изображений в результатах. Было подсчитано, что, когда поисковая система, такая как изображения Google, запрашивает название категории объекта (например, самолет?), до 85% возвращаемых изображений не имеют отношения к категории. ^[1]

Еще одна проблема, связанная с использованием результатов поиска изображений в Интернете в качестве обучающих наборов для классификаторов, заключается в том, что существует большая изменчивость внутри категорий объектов по сравнению с категориями, найденными в наборах данных с ручными метками, таких как Caltech 101 и Pascal . Изображения объектов могут сильно различаться по ряду важных факторов, таких как масштаб, поза, освещение, количество объектов и степень окклюзии.

В статье 2005 года Фергуса и др. ^[1] pLSA (вероятностный латентный семантический анализ) и расширения этой модели были применены к проблеме категоризации объектов на основе поиска изображений. pLSA изначально была разработана для классификации документов , но с тех пор применяется к компьютерному зрению . Предполагается, что изображения — это документы, соответствующие модели « мешок слов» .

Подобно тому, как текстовые документы состоят из слов, каждое из которых может повторяться в документе и между документами, изображения можно моделировать как комбинации визуальных слов . Подобно тому, как весь набор текстовых слов определяется словарем, весь набор визуальных слов определяется в словаре кодовых слов .