Категоризация объектов из поиска изображений

В компьютерном зрении проблема категоризации объектов на основе поиска изображений - это проблема обучения классификатора распознаванию категорий объектов с использованием только изображений, автоматически извлеченных поисковой машиной в Интернете . В идеале автоматический сбор изображений позволял бы обучать классификаторы, используя только имена категорий в качестве входных данных. Эта проблема тесно связана с проблемой поиска изображений на основе содержимого (CBIR), где цель состоит в том, чтобы возвращать лучшие результаты поиска изображений, а не обучать классификатор для распознавания изображений.

Традиционно для обучения классификаторов используются наборы изображений, помеченные вручную. Сбор такого набора изображений часто является очень трудоемким и трудоемким процессом. Использование поисковых систем в Интернете для автоматизации процесса получения больших наборов помеченных изображений было описано как потенциальный способ значительно облегчить исследования компьютерного зрения. ^[1]

Вызовы

Несвязанные изображения

Одной из проблем с использованием результатов поиска изображений в Интернете в качестве обучающего набора для классификатора является высокий процент несвязанных изображений в результатах. Было подсчитано, что, когда поисковая система, такая как изображения Google, запрашивает имя категории объекта (например, самолет?), До 85% возвращенных изображений не относятся к категории. ^[1]

Внутриклассовая изменчивость

Еще одна проблема, возникающая при использовании результатов поиска изображений в Интернете в качестве обучающих наборов для классификаторов, заключается в том, что существует большая вариативность в категориях объектов по сравнению с категориями, обнаруженными в наборах данных с ручной меткой, таких как Caltech 101 и Pascal . Изображения объектов могут сильно различаться по ряду важных факторов, таких как масштаб, поза, освещение, количество объектов и степень окклюзии.

подход pLSA

В статье 2005 года Фергуса и др. ^[1] pLSA (вероятностный скрытый семантический анализ) и расширения этой модели были применены к проблеме категоризации объектов на основе поиска изображений. pLSA изначально был разработан для классификации документов , но с тех пор применяется для компьютерного зрения . Предполагается, что изображения - это документы, которые соответствуют модели « мешок слов» .

Модель

Подобно тому, как текстовые документы состоят из слов, каждое из которых может повторяться в документе и во всех документах, изображения можно моделировать как комбинации визуальных слов . Подобно тому, как весь набор текстовых слов определяется словарем, весь набор визуальных слов определяется в словаре кодовых слов .

pLSA также разделяет документы на темы . Подобно тому, как знание темы (ов) статьи позволяет вам делать правильные предположения о типах слов, которые будут в ней, так и распределение слов в изображении зависит от основных тем. Модель pLSA сообщает нам вероятность увидеть каждое слово ${\ displaystyle w}$ учитывая категорию ${\ displaystyle \ displaystyle d}$ с точки зрения тем ${\ displaystyle \ displaystyle z}$ :

${\ Displaystyle \ Displaystyle P (вес | d) = \ сумма _ {z = 1} ^ {Z} P (w | z) P (z | d)}$

Важное предположение, сделанное в этой модели, состоит в том, что ${\ displaystyle \ displaystyle w}$ а также ${\ displaystyle \ displaystyle d}$ условно независимы с учетом ${\ displaystyle \ displaystyle z}$ . Учитывая тему, вероятность того, что определенное слово появится как часть этой темы, не зависит от остальной части изображения. ^[2]

Обучение этой модели предполагает поиск ${\ Displaystyle \ Displaystyle Р (ш | г)}$ а также ${\ Displaystyle \ Displaystyle Р (г | г)}$ что максимизирует вероятность появления наблюдаемых слов в каждом документе. Для этого используется алгоритм максимизации математического ожидания со следующей целевой функцией :

${\ Displaystyle \ Displaystyle L = \ prod _ {d = 1} ^ {D} \ prod _ {w = 1} ^ {W} P (w | d) ^ {n (w | d)}}$

Заявление

ABS-pLSA

Абсолютное положение pLSA (ABS-pLSA) прикрепляет информацию о местоположении к каждому визуальному слову, локализуя ее на одном из крестиков на изображении. Здесь, ${\ displaystyle \ displaystyle x}$ представляет, в какую из ящиков попадает визуальное слово. Новое уравнение:

${\ displaystyle \ displaystyle P (w | d) = \ sum _ {z = 1} ^ {Z} P (w, x | z) P (z | d)}$

${\ Displaystyle \ Displaystyle Р (ш, х | г)}$ а также ${\ displaystyle \ displaystyle P (d)}$ может быть решена аналогично исходной задаче pLSA с использованием алгоритма EM

Проблема с этой моделью заключается в том, что она не инвариантна к перемещению или масштабированию. Поскольку позиции визуальных слов являются абсолютными, изменение размера объекта на изображении или его перемещение окажет значительное влияние на пространственное распределение визуальных слов по разным ячейкам.

TSI-pLSA

Трансляция и масштабно-инвариантный pLSA (TSI-pLSA). Эта модель расширяет pLSA, добавляя еще одну скрытую переменную, которая описывает пространственное положение целевого объекта на изображении. Теперь позиция ${\ displaystyle \ displaystyle x}$ визуального слова задается относительно этого местоположения объекта, а не как абсолютное положение на изображении. Новое уравнение:

${\ displaystyle \ displaystyle P (w, x | d) = \ sum _ {z = 1} ^ {Z} \ sum _ {c = 1} ^ {C} P (w, x | c, z) P ( в) P (z | d)}$

Опять же, параметры ${\ Displaystyle \ Displaystyle Р (ш, х | с, г)}$ а также ${\ displaystyle \ displaystyle P (d)}$ может быть решена с помощью алгоритма EM . ${\ displaystyle \ displaystyle P (c)}$ можно считать равномерным распределением.

Выполнение

Выбор слов

Слова на изображении были выбраны с помощью 4 различных детекторов признаков: ^[1]

Детектор выраженности Кадира – Брэди
Многоуровневый детектор Харриса
Разница гауссианов
Оператор на основе края, описанный в исследовании

С помощью этих 4 детекторов на каждом изображении было обнаружено около 700 деталей. Эти признаки затем кодировались как дескрипторы преобразования признаков, не зависящие от масштаба , и векторно квантовались, чтобы соответствовать одному из 350 слов, содержащихся в кодовой книге. Кодовая книга была предварительно вычислена из характеристик, извлеченных из большого количества изображений, охватывающих множество категорий объектов.

Возможное расположение объекта

Один из важных вопросов в модели TSI-pLSA - как определить значения, которые случайная величина ${\ displaystyle \ displaystyle C}$ может взять на себя. Это 4-вектор, компоненты которого описывают центроид объекта, а также шкалы x и y, которые определяют ограничивающую рамку вокруг объекта, поэтому пространство возможных значений, которые он может принимать, огромно. Чтобы ограничить количество возможных местоположений объектов разумным числом, сначала выполняется нормальный pLSA на наборе изображений, и для каждой темы модель смеси Гаусса подбирается по визуальным словам, взвешенной по ${\ Displaystyle \ Displaystyle Р (ш | г)}$ . Вплоть до ${\ displaystyle \ displaystyle K}$ Испытываются гауссианы (с учетом нескольких экземпляров объекта на одном изображении), где ${\ displaystyle \ displaystyle K}$ является константой.

Представление

Авторы Fergus et al. В документе сравнивается производительность трех алгоритмов pLSA (pLSA, ABS-pLSA и TSI-pLSA) на отобранных вручную наборах данных и изображениях, полученных в результате поиска Google. Производительность измерялась как частота ошибок при классификации изображений в тестовом наборе как содержащих изображение или содержащих только фон.

Как и ожидалось, обучение непосредственно на данных Google дает более высокий процент ошибок, чем обучение на подготовленных данных. ^[1] Примерно в половине протестированных категорий объектов ABS-pLSA и TSI-pLSA работают значительно лучше, чем обычные pLSA, и только в 2 категориях из 7 TSI-pLSA работает лучше, чем две другие модели.

ОПТИМОЛ

OPTIMOL (автоматическая онлайн-коллекция изображений с помощью инкрементного обучения модели) подходит к проблеме категорий объектов обучения из онлайн-поиска изображений, одновременно обращаясь к изучению модели и поиску. OPTIMOL - это итеративная модель, которая обновляет свою модель целевой категории объектов, одновременно извлекая более релевантные изображения. ^[3]

Общие рамки

OPTIMOL был представлен как общая итеративная структура, не зависящая от конкретной модели, используемой для категорийного обучения. Алгоритм следующий:

Загрузите большой набор изображений из Интернета, выполнив поиск по ключевому слову.
Инициализировать набор данных с исходными изображениями
Хотя в наборе данных нужно больше изображений:
- Изучите модель с помощью последних добавленных изображений набора данных
- Классифицируйте загруженные изображения с помощью обновленной модели
- Добавить принятые изображения в набор данных

Обратите внимание, что в каждом раунде обучения используются только недавно добавленные изображения. Это позволяет алгоритму работать с произвольно большим количеством входных изображений.