В компьютерном зрении проблема категоризации объектов на основе поиска изображений - это проблема обучения классификатора распознаванию категорий объектов с использованием только изображений, автоматически извлеченных поисковой машиной в Интернете . В идеале автоматический сбор изображений позволял бы обучать классификаторы, используя только имена категорий в качестве входных данных. Эта проблема тесно связана с проблемой поиска изображений на основе содержимого (CBIR), где цель состоит в том, чтобы возвращать лучшие результаты поиска изображений, а не обучать классификатор для распознавания изображений.
Традиционно для обучения классификаторов используются наборы изображений, помеченные вручную. Сбор такого набора изображений часто является очень трудоемким и трудоемким процессом. Использование поисковых систем в Интернете для автоматизации процесса получения больших наборов помеченных изображений было описано как потенциальный способ значительно облегчить исследования компьютерного зрения. [1]
Вызовы
Одной из проблем с использованием результатов поиска изображений в Интернете в качестве обучающего набора для классификатора является высокий процент несвязанных изображений в результатах. Было подсчитано, что, когда поисковая система, такая как изображения Google, запрашивает имя категории объекта (например, самолет?), До 85% возвращенных изображений не относятся к категории. [1]
Внутриклассовая изменчивость
Еще одна проблема, возникающая при использовании результатов поиска изображений в Интернете в качестве обучающих наборов для классификаторов, заключается в том, что существует большая вариативность в категориях объектов по сравнению с категориями, обнаруженными в наборах данных с ручной меткой, таких как Caltech 101 и Pascal . Изображения объектов могут сильно различаться по ряду важных факторов, таких как масштаб, поза, освещение, количество объектов и степень окклюзии.
подход pLSA
В статье 2005 года Фергуса и др. [1] pLSA (вероятностный скрытый семантический анализ) и расширения этой модели были применены к проблеме категоризации объектов на основе поиска изображений. pLSA изначально был разработан для классификации документов , но с тех пор применяется для компьютерного зрения . Предполагается, что изображения - это документы, которые соответствуют модели « мешок слов» .
Модель
Подобно тому, как текстовые документы состоят из слов, каждое из которых может повторяться в документе и во всех документах, изображения можно моделировать как комбинации визуальных слов . Подобно тому, как весь набор текстовых слов определяется словарем, весь набор визуальных слов определяется в словаре кодовых слов .
pLSA также разделяет документы на темы . Подобно тому, как знание темы (ов) статьи позволяет вам делать правильные предположения о типах слов, которые будут в ней, так и распределение слов в изображении зависит от основных тем. Модель pLSA сообщает нам вероятность увидеть каждое слово учитывая категорию с точки зрения тем :
Важное предположение, сделанное в этой модели, состоит в том, что а также условно независимы с учетом . Учитывая тему, вероятность того, что определенное слово появится как часть этой темы, не зависит от остальной части изображения. [2]
Обучение этой модели предполагает поиск а также что максимизирует вероятность появления наблюдаемых слов в каждом документе. Для этого используется алгоритм максимизации математического ожидания со следующей целевой функцией :
Заявление
ABS-pLSA
Абсолютное положение pLSA (ABS-pLSA) прикрепляет информацию о местоположении к каждому визуальному слову, локализуя ее на одном из крестиков на изображении. Здесь,представляет, в какую из ящиков попадает визуальное слово. Новое уравнение:
а также может быть решена аналогично исходной задаче pLSA с использованием алгоритма EM
Проблема с этой моделью заключается в том, что она не инвариантна к перемещению или масштабированию. Поскольку позиции визуальных слов являются абсолютными, изменение размера объекта на изображении или его перемещение окажет значительное влияние на пространственное распределение визуальных слов по разным ячейкам.
TSI-pLSA
Трансляция и масштабно-инвариантный pLSA (TSI-pLSA). Эта модель расширяет pLSA, добавляя еще одну скрытую переменную, которая описывает пространственное положение целевого объекта на изображении. Теперь позициявизуального слова задается относительно этого местоположения объекта, а не как абсолютное положение на изображении. Новое уравнение:
Опять же, параметры а также может быть решена с помощью алгоритма EM . можно считать равномерным распределением.
Выполнение
Выбор слов
Слова на изображении были выбраны с помощью 4 различных детекторов признаков: [1]
- Детектор выраженности Кадира – Брэди
- Многоуровневый детектор Харриса
- Разница гауссианов
- Оператор на основе края, описанный в исследовании
С помощью этих 4 детекторов на каждом изображении было обнаружено около 700 деталей. Эти признаки затем кодировались как дескрипторы преобразования признаков, не зависящие от масштаба , и векторно квантовались, чтобы соответствовать одному из 350 слов, содержащихся в кодовой книге. Кодовая книга была предварительно вычислена из характеристик, извлеченных из большого количества изображений, охватывающих множество категорий объектов.
Возможное расположение объекта
Один из важных вопросов в модели TSI-pLSA - как определить значения, которые случайная величина может взять на себя. Это 4-вектор, компоненты которого описывают центроид объекта, а также шкалы x и y, которые определяют ограничивающую рамку вокруг объекта, поэтому пространство возможных значений, которые он может принимать, огромно. Чтобы ограничить количество возможных местоположений объектов разумным числом, сначала выполняется нормальный pLSA на наборе изображений, и для каждой темы модель смеси Гаусса подбирается по визуальным словам, взвешенной по. Вплоть до Испытываются гауссианы (с учетом нескольких экземпляров объекта на одном изображении), где является константой.
Представление
Авторы Fergus et al. В документе сравнивается производительность трех алгоритмов pLSA (pLSA, ABS-pLSA и TSI-pLSA) на отобранных вручную наборах данных и изображениях, полученных в результате поиска Google. Производительность измерялась как частота ошибок при классификации изображений в тестовом наборе как содержащих изображение или содержащих только фон.
Как и ожидалось, обучение непосредственно на данных Google дает более высокий процент ошибок, чем обучение на подготовленных данных. [1] Примерно в половине протестированных категорий объектов ABS-pLSA и TSI-pLSA работают значительно лучше, чем обычные pLSA, и только в 2 категориях из 7 TSI-pLSA работает лучше, чем две другие модели.
ОПТИМОЛ
OPTIMOL (автоматическая онлайн-коллекция изображений с помощью инкрементного обучения модели) подходит к проблеме категорий объектов обучения из онлайн-поиска изображений, одновременно обращаясь к изучению модели и поиску. OPTIMOL - это итеративная модель, которая обновляет свою модель целевой категории объектов, одновременно извлекая более релевантные изображения. [3]
Общие рамки
OPTIMOL был представлен как общая итеративная структура, не зависящая от конкретной модели, используемой для категорийного обучения. Алгоритм следующий:
- Загрузите большой набор изображений из Интернета, выполнив поиск по ключевому слову.
- Инициализировать набор данных с исходными изображениями
- Хотя в наборе данных нужно больше изображений:
- Изучите модель с помощью последних добавленных изображений набора данных
- Классифицируйте загруженные изображения с помощью обновленной модели
- Добавить принятые изображения в набор данных
Обратите внимание, что в каждом раунде обучения используются только недавно добавленные изображения. Это позволяет алгоритму работать с произвольно большим количеством входных изображений.
Модель
Две категории (целевой объект и фон) моделируются как иерархические процессы Дирихле (HDP). Как и в подходе pLSA, предполагается, что изображения могут быть описаны с помощью модели мешка слов . HDP моделирует распределение неопределенного количества тем по изображениям в категории и по категориям. Распределение тем среди изображений в одной категории моделируется как процесс Дирихле (тип непараметрического распределения вероятностей ). Чтобы разрешить совместное использование тем в классах, каждый из этих процессов Дирихле моделируется как образец из другого неадекватного процесса Дирихле. HDP был впервые описан Teh et al. в 2005 г. [4]
Выполнение
Инициализация
Набор данных должен быть инициализирован или заполнен исходной партией изображений, которые служат хорошими примерами категории объекта, которую необходимо изучить. Их можно собрать автоматически, используя первую страницу или около того изображений, возвращенных поисковой системой (которые, как правило, лучше, чем последующие изображения). Как вариант, исходные изображения можно собрать вручную.
Модельное обучение
Для постепенного изучения различных параметров HDP используется выборка Гиббса по скрытым переменным. Это выполняется после того, как каждый новый набор изображений включается в набор данных. Выборка Гиббса включает в себя многократную выборку из набора случайных величин для аппроксимации их распределения. Выборка включает в себя создание значения для рассматриваемой случайной величины на основе состояния других случайных величин, от которых она зависит. При наличии достаточного количества выборок может быть достигнуто разумное приближение значения.
Классификация
На каждой итерации а также можно получить из модели, изученной после предыдущего раунда выборки Гиббса, где это тема, это категория, а это единое визуальное слово. Таким образом, вероятность того, что изображение принадлежит к определенному классу, составляет:
Это вычисляется для каждого нового изображения кандидата за итерацию. Изображение относится к категории с наибольшей вероятностью.
Дополнение к набору данных и «кэш-набору»
Однако, чтобы иметь право на включение в набор данных, изображение должно удовлетворять более строгому условию:
Где а также являются категориями переднего плана (объект) и фона, соответственно, а соотношение констант описывает риск принятия ложных срабатываний и ложных отрицаний. Они корректируются автоматически на каждой итерации, при этом стоимость ложноположительного набора выше, чем стоимость ложноотрицательного результата. Это гарантирует, что будет собран лучший набор данных.
Однако после того, как изображение принято согласно вышеуказанному критерию и включено в набор данных, оно должно соответствовать другому критерию, прежде чем оно будет включено в «набор проблем» - набор изображений, которые будут использоваться для обучения. Этот набор представляет собой разнообразное подмножество набора принятых изображений. Если бы модель обучалась на всех принятых изображениях, она могла бы становиться все более и более узкоспециализированной, принимая только изображения, очень похожие на предыдущие.
Представление
Эффективность метода OPTIMOL определяется тремя факторами:
- Способность собирать изображения : обнаружено, что OPTIMOL может автоматически собирать большое количество хороших изображений из Интернета. Размер наборов изображений, полученных с помощью OPTIMOL, превосходит размер больших наборов изображений, помеченных людьми, для тех же категорий, например, найденных в Caltech 101 .
- Точность классификации : точность классификации сравнивалась с точностью, отображаемой классификатором, которая была получена с помощью методов pLSA, описанных ранее. Было обнаружено, что OPTIMOL достиг немного более высокой точности, получив 74,8% точности по 7 категориям объектов по сравнению с 72,0%.
- Сравнение с пакетным обучением : важно ответить на вопрос, дает ли инкрементное обучение OPTIMOL преимущество перед традиционными методами пакетного обучения, когда все остальное в модели остается неизменным. Когда классификатор учится постепенно, выбирая следующие изображения на основе того, что он узнал из предыдущих, наблюдаются три важных результата:
- Пошаговое обучение позволяет OPTIMOL собирать лучший набор данных
- Пошаговое обучение позволяет OPTIMOL учиться быстрее (отбрасывая нерелевантные изображения)
- Пошаговое обучение не влияет отрицательно на кривую ROC классификатора; Фактически, постепенное обучение привело к улучшению
Категоризация объектов при поиске изображений на основе содержимого
Обычно при поиске изображений используется только текст, связанный с изображениями. Проблема поиска изображений на основе содержимого заключается в улучшении результатов поиска за счет учета визуальной информации, содержащейся в самих изображениях. Некоторые методы CBIR используют классификаторы, обученные на результатах поиска изображений, для уточнения поиска. Другими словами, категоризация объектов на основе поиска изображений является одним из компонентов системы. OPTIMOL, например, использует классификатор, обученный на изображениях, собранных во время предыдущих итераций, для выбора дополнительных изображений для возвращенного набора данных.
Примеры методов CBIR, моделирующих категории объектов из поиска изображений:
Рекомендации
- ^ a b c d e Fergus, R .; Fei-Fei, L .; Perona, P .; Зиссерман, А. (2005). «Изучение категорий объектов из Google 抯 Поиск изображений» (PDF) . Proc. Международная конференция IEEE по компьютерному зрению .
- ^ Хофманн, Томас (1999). «Вероятностный скрытый семантический анализ» (PDF) . Неопределенность в искусственном интеллекте . Архивировано из оригинального (PDF) 10 июля 2007 года.
- ^ Ли, Ли-Цзя; Ванга, банда; Фэй-Фэй, Ли (2007). «OPTIMOL: автоматическая онлайн-коллекция изображений с помощью инкрементального обучения модели» (PDF) . Proc. Конференция IEEE по компьютерному зрению и распознаванию образов .
- ^ Teh, Yw; Иордания, Мичиган; Бил, MJ; Блей, Дэвид (2006). «Иерархические процессы Дирихле» (PDF) . Журнал Американской статистической ассоциации . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . DOI : 10.1198 / 016214506000000302 . S2CID 7934949 .
- ^ Fergus, R .; Perona, P .; Зиссерман, А. (2004). «Визуальный фильтр категорий для изображений Google» (PDF) . Proc. 8-я Европейская конф. по компьютерному зрению .
- ^ Berg, T .; Форсайт, Д. (2006). «Животные в сети». Proc. Компьютерное зрение и распознавание образов . DOI : 10,1109 / CVPR.2006.57 .
- ^ Янаи, К; Барнард, К. (2005). «Вероятностный сбор изображений в сети» . ACM SIGMM семинар по поиску мультимедийной информации .
Внешние ссылки
Смотрите также
- Вероятностный латентно-семантический анализ
- Скрытое размещение Дирихле
- Машинное обучение
- Мешок слов модель
- Поиск изображений на основе содержимого