Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В компьютерном зрении модель мешка слов ( модель BoW), иногда называемая моделью мешка визуальных слов [1] [2], может применяться к классификации или поиску изображений , рассматривая особенности изображения как слова. В классификации документов , мешок слов является разреженным вектором залегания эпизодов слов; то есть разреженная гистограмма по словарю. В компьютерном зрении , сумка визуальных слов является вектором возникновения эпизодамов словаря местных особенностей изображения.

Представление изображения на основе модели BoW [ править ]

Чтобы представить изображение с использованием модели BoW, изображение можно рассматривать как документ. Точно так же необходимо определить «слова» в изображениях. Чтобы достичь этого, он обычно включает следующие три шага: обнаружение функции, описание функции и создание кодовой книги. [1] [2] [3] Определением модели BoW может быть «представление гистограммы на основе независимых функций». [4] Индексирование и поиск изображений на основе контента (CBIR), по-видимому, является одним из первых, кто применил этот метод представления изображений. [5]

Представление функции [ править ]

После обнаружения функции каждое изображение абстрагируется несколькими локальными патчами. Методы представления признаков касаются того, как представить участки в виде числовых векторов. Эти векторы называются дескрипторами признаков. Хороший дескриптор должен иметь возможность до некоторой степени обрабатывать интенсивность, поворот, масштаб и аффинные вариации. Одним из самых известных дескрипторов является масштабно-инвариантное преобразование признаков (SIFT). [6] SIFT преобразует каждый фрагмент в 128-мерный вектор. После этого шага каждое изображение представляет собой набор векторов одинаковой размерности (128 для SIFT), где порядок различных векторов не имеет значения.

Генерация кодовой книги [ править ]

Последним шагом для модели BoW является преобразование векторно представленных патчей в «кодовые слова» (аналог слов в текстовых документах), что также создает «кодовую книгу» (аналог словарного словаря). Кодовое слово можно рассматривать как представителя нескольких похожих патчей. Один простой метод - выполнить кластеризацию k-средних по всем векторам. [7] Кодовые слова затем определяются как центры изученных кластеров. Количество кластеров является размером кодовой книги (аналогично размеру словаря слов).

Таким образом, каждый фрагмент изображения отображается на определенное кодовое слово в процессе кластеризации, и изображение может быть представлено гистограммой кодовых слов.

Обучение и признание на основе модели BoW [ править ]

Исследователи компьютерного зрения разработали несколько методов обучения, чтобы использовать модель BoW для задач, связанных с изображениями, таких как категоризация объектов . Эти методы можно условно разделить на две категории: модели без учителя и модели с учителем. Для задачи категоризации нескольких меток матрица неточностей может использоваться в качестве метрики оценки.

Неконтролируемые модели [ править ]

Вот некоторые обозначения для этого раздела. Предположим, что размер кодовой книги составляет .

  • : каждый патч представляет собой V-мерный вектор, у которого один компонент равен одному, а все остальные компоненты равны нулю (для настройки кластеризации k-средних один компонент, равный единице, указывает на принадлежащий кластеру ). - Е кодовое слово в кодовой книге может быть представлена в виде и для .
  • : каждое изображение представлено , все участки изображения
  • : ое изображение в коллекции изображений
  • : категория изображения
  • : тема или тема патча
  • : пропорция смеси

Поскольку модель BoW является аналогом модели BoW в НЛП, генеративные модели, разработанные в текстовых областях, также могут быть адаптированы в компьютерном зрении. Обсуждаются простая наивная байесовская модель и иерархические байесовские модели.

Наивный Байес [ править ]

Самый простой - это наивный байесовский классификатор. [2] Используя язык графических моделей , наивный байесовский классификатор описывается приведенным ниже уравнением. Основная идея (или допущение) этой модели состоит в том, что каждая категория имеет собственное распределение по кодовым книгам, и что распределения каждой категории заметно различаются. Возьмем, к примеру, категорию лиц и категорию автомобилей. Категория лица может выделять кодовые слова, которые представляют «нос», «глаз» и «рот», тогда как категория автомобиля может выделять кодовые слова, которые представляют «колесо» и «окно». Имея набор обучающих примеров, классификатор изучает разные распределения для разных категорий. Решение о категоризации принимается

Поскольку наивный байесовский классификатор прост, но эффективен, он обычно используется в качестве базового метода для сравнения.

Иерархические байесовские модели [ править ]

Основное предположение модели Наивного Байеса иногда не выполняется. Например, изображение естественной сцены может содержать несколько разных тем.Вероятностный латентно-семантический анализ (pLSA) [8] [9] и скрытое распределение Дирихле (LDA) [10] - две популярные тематические модели из текстовых областей для решения аналогичной множественной «тематической» проблемы. Возьмем, к примеру, LDA. Для моделирования изображений естественной сцены с использованием LDA проводится аналогия с анализом документа:

  • категория изображения сопоставляется с категорией документа;
  • смешанная пропорция тем отображает смешанную пропорцию тем;
  • индекс темы сопоставляется с индексом темы;
  • кодовое слово отображается на слово.

Этот метод показывает очень многообещающие результаты в категоризации естественных сцен по 13 категориям природных сцен . [3]

Модели под присмотром [ править ]

Поскольку изображения представлены на основе модели BoW, можно попробовать любую отличительную модель, подходящую для категоризации текстовых документов, например, поддержку векторной машины (SVM) [2] и AdaBoost . [11] Уловка с ядром также применима, когда используется классификатор на основе ядра, такой как SVM. Ядро совпадения пирамид - это недавно разработанное ядро, основанное на модели BoW. Подход с использованием локальных функций с использованием представления модели BoW, изученного классификаторами машинного обучения с различными ядрами (например, ядром EMD и ядром), был тщательно протестирован в области распознавания текстур и объектов. [12] Сообщалось об очень многообещающих результатах по ряду наборов данных. Этот подход [12]добился очень впечатляющих результатов в конкурсе PASCAL Visual Object Classes Challenge .

Ядро сопоставления пирамиды [ править ]

Ядро сопоставления пирамид [13] - это быстрый алгоритм (линейная сложность вместо классического в квадратичной сложности) функция ядра (удовлетворяющая условию Мерсера), который сопоставляет функции BoW или набор функций в высоком измерении с многомерными гистограммами с различным разрешением. Преимуществом этих гистограмм с разным разрешением является их способность фиксировать сопутствующие особенности. Ядро сопоставления пирамид строит гистограммы с разным разрешением, объединяя точки данных в дискретные области увеличивающегося размера. Таким образом, точки, которые не совпадают при высоком разрешении, имеют шанс совпасть при низком разрешении. Ядро сопоставления пирамиды выполняет приблизительное сопоставление схожести без явного поиска или вычисления расстояния. Вместо этого он пересекает гистограммы, чтобы приблизиться к оптимальному совпадению. Соответственно, время вычислений линейно зависит только от количества функций. По сравнению с другими подходами к ядру, ядро ​​сопоставления пирамиды работает намного быстрее, но обеспечивает эквивалентную точность.Ядро соответствия пирамиды было применено кETH-80 базы данных и базы данных Caltech 101 с обнадеживающими результатами. [13] [14]

Ограничения и последние события [ править ]

Одним из печально известных недостатков BoW является то, что он игнорирует пространственные отношения между пятнами, которые очень важны для представления изображения. Исследователи предложили несколько методов включения пространственной информации. Для улучшений на уровне объектов функции коррелограммы могут фиксировать пространственное совпадение объектов. [15] Для генеративных моделей также учитываются относительные положения [16] [17] кодовых слов. Иерархическая модель формы и внешнего вида для действий человека [18] представляет новый слой детали ( модель созвездия) между пропорцией смеси и элементами BoW, которая фиксирует пространственные отношения между частями в слое. Для дискриминирующих моделей сопоставление пространственной пирамиды [19] выполняет сопоставление пирамиды путем разделения изображения на все более мелкие подобласти и вычисления гистограмм локальных характеристик внутри каждой подобласти. В последнее время расширение локальных дескрипторов изображения (т.е. SIFT ) их пространственными координатами, нормализованными по ширине и высоте изображения, оказалось надежным и простым подходом пространственного координатного кодирования [20] [21], который вводит пространственную информацию в модель BoW.

Модель BoW еще не была тщательно протестирована на инвариантность точки обзора и масштабную инвариантность, и ее производительность неясна. Также недостаточно изучена модель BoW для сегментации и локализации объектов. [4]

Систематическое сравнение конвейеров классификации показало, что кодирование статистики первого и второго порядка (вектор локально агрегированных дескрипторов (VLAD) [22] и вектор Фишера (FV) ) значительно повысило точность классификации по сравнению с BoW, а также уменьшило размер кодовой книги, тем самым снижая вычислительные затраты на создание кодовой книги. [23] Более того, недавнее подробное сравнение методов кодирования и объединения [21] для BoW показало, что статистика второго порядка в сочетании с разреженным кодированием и соответствующим объединением, таким как нормализация мощности, может еще больше превзойти векторы Фишера и даже приблизиться к результатам простых моделей Сверточная нейронная сетьна некоторых наборах данных распознавания объектов, таких как Oxford Flower Dataset 102 .

См. Также [ править ]

  • Модели на основе деталей
  • Кодирование вектора Фишера
  • Категоризация объектов на основе сегментации
  • Векторная модель пространства
  • Модель мешка слов
  • Извлечение признаков

Ссылки [ править ]

  1. ^ a b Дж. Сивич и А. Зиссерман (2003). «Видео Google: подход к поиску текста для сопоставления объектов в видео» (PDF) . Proc. ICCV .
  2. ^ а б в г Г. Чурка; C. Танец; LX Fan; Дж. Уилламовски и К. Брей (2004). «Визуальная категоризация с мешками ключевых точек» . Proc. международного семинара ECCV по статистическому обучению в компьютерном зрении .
  3. ^ а б Фэй-Фэй Ли; Перона, П. (2005). Байесовская иерархическая модель для изучения категорий природных сцен . Конференция компьютерного общества IEEE 2005 года по компьютерному зрению и распознаванию образов (CVPR'05) . 2 . п. 524. DOI : 10,1109 / CVPR.2005.16 . ISBN 978-0-7695-2372-9.
  4. ^ а б Л. Фей-Фэй; Р. Фергус и А. Торральба. «Распознавание и изучение категорий объектов, краткий курс CVPR 2007» .
  5. Перейти ↑ Qiu, G. (2002). «Индексирование хроматических и ахроматических паттернов для поиска цветных изображений на основе содержимого» (PDF) . Распознавание образов . 35 (8): 1675–1686. DOI : 10.1016 / S0031-3203 (01) 00162-5 .
  6. ^ Видаль-Наке; Ульман (1999). «Распознавание объектов с информативными признаками и линейной классификацией» (PDF) . Труды Девятой международной конференции IEEE по компьютерному зрению . С. 1150–1157. CiteSeerX 10.1.1.131.1283 . DOI : 10.1109 / ICCV.2003.1238356 . ISBN   978-0-7695-1950-0.
  7. ^ T. Leung; Дж. Малик (2001). «Представление и распознавание внешнего вида материалов с помощью трехмерных текстонов» (PDF) . Международный журнал компьютерного зрения . 43 (1): 29–44. DOI : 10,1023 / А: 1011126920638 .
  8. Т. Хоффман (1999). «Вероятностный скрытый семантический анализ» (PDF) . Proc. Пятнадцатой конференции по неопределенности в искусственном интеллекте . Архивировано из оригинального (PDF) 10 июля 2007 года . Проверено 10 декабря 2007 .
  9. ^ Sivic, J .; Рассел, Британская Колумбия; Эфрос, АА; Зиссерман, А .; Фриман, WT (2005). «Обнаружение объектов и их расположения на изображениях» (PDF) . Десятая Международная конференция IEEE по компьютерному зрению (ICCV'05) Том 1 . п. 370. CiteSeerX 10.1.1.184.1253 . DOI : 10.1109 / ICCV.2005.77 . ISBN   978-0-7695-2334-7.
  10. ^ Д. Блей; А. Нг и М. Джордан (2003). Лафферти, Джон (ред.). «Скрытое размещение Дирихле» (PDF) . Журнал исследований в области машинного обучения . 3 (4–5): 993–1022. DOI : 10.1162 / jmlr.2003.3.4-5.993 . Архивировано из оригинального (PDF) 22 августа 2008 года . Проверено 10 декабря 2007 .
  11. ^ Серр, Т ​​.; Wolf, L .; Поджио, Т. (2005). «Распознавание объектов с помощью функций, вдохновленных Visual Cortex» (PDF) . Конференция компьютерного общества IEEE 2005 года по компьютерному зрению и распознаванию образов (CVPR'05) . 2 . п. 994. CiteSeerX 10.1.1.71.5276 . DOI : 10,1109 / CVPR.2005.254 . ISBN   978-0-7695-2372-9.
  12. ^ а б Цзяньго Чжан; Марцин Маршалек; Светлана Лазебник ; Корделия Шмид (2007). «Локальные особенности и ядра для классификации текстур и категорий объектов: всестороннее исследование» (PDF) . Международный журнал компьютерного зрения . 73 (2): 213–238. DOI : 10.1007 / s11263-006-9794-4 .
  13. ^ а б Грауман, К .; Даррелл, Т. (2005). «Ядро соответствия пирамиды: отличительная классификация с наборами характеристик изображения» (PDF) . Десятая Международная конференция IEEE по компьютерному зрению (ICCV'05) Том 1 . п. 1458. CiteSeerX 10.1.1.644.6159 . DOI : 10.1109 / ICCV.2005.239 . ISBN   978-0-7695-2334-7.
  14. ^ Цзяньчао Ян; Кай Ю; Ихонг Гонг; Хуанг, Т. (2009). «Соответствие линейной пространственной пирамиды с использованием разреженного кодирования для классификации изображений» . 2009 Конференция IEEE по компьютерному зрению и распознаванию образов . п. 1794 DOI : 10,1109 / CVPR.2009.5206757 . ISBN 978-1-4244-3992-8.
  15. ^ Savarese, S .; Winn, J .; Криминиси, А. (2006). «Дискриминационные модели классов объектов внешнего вида и формы по коррелятонам» (PDF) . Конференция компьютерного общества IEEE 2006 года по компьютерному зрению и распознаванию образов - Том 2 (CVPR'06) . 2 . п. 2033. CiteSeerX 10.1.1.587.8853 . DOI : 10,1109 / CVPR.2006.102 . ISBN   978-0-7695-2597-6.
  16. ^ Sudderth, EB; Torralba, A .; Фримен, WT; Вилски, AS (2005). «Изучение иерархических моделей сцен, объектов и частей» (PDF) . Десятая Международная конференция IEEE по компьютерному зрению (ICCV'05) Том 1 . п. 1331. CiteSeerX 10.1.1.128.7259 . DOI : 10.1109 / ICCV.2005.137 . ISBN   978-0-7695-2334-7.
  17. ^ Э. Саддерт; А. Торральба; В. Фриман и А. Вилски (2005). «Описание визуальных сцен с использованием преобразованных процессов Дирихле» (PDF) . Proc. нейронных систем обработки информации .
  18. ^ Niebles, Хуан Карлос; Ли Фэй-Фэй (2007). «Иерархическая модель формы и внешнего вида для классификации действий человека» (PDF) . Конференция IEEE 2007 года по компьютерному зрению и распознаванию образов . п. 1. CiteSeerX 10.1.1.173.2667 . DOI : 10,1109 / CVPR.2007.383132 . ISBN   978-1-4244-1179-5.
  19. ^ Лазебник, С .; Шмид, К .; Понсе, Дж. (2006). «За пределами набора функций: сопоставление пространственных пирамид для распознавания категорий природных сцен» (PDF) . Конференция компьютерного общества IEEE 2006 года по компьютерному зрению и распознаванию образов - Том 2 (CVPR'06) . 2 . п. 2169. CiteSeerX 10.1.1.651.9183 . DOI : 10,1109 / CVPR.2006.68 . ISBN   978-0-7695-2597-6.
  20. ^ Конюш, Петр; Ян, Фэй; Миколайчик, Кристиан (01.05.2013). «Сравнение подходов к кодированию функций среднего уровня и стратегий объединения при обнаружении визуальных концепций». Компьютерное зрение и понимание изображений . 117 (5): 479–492. DOI : 10.1016 / j.cviu.2012.10.010 . ISSN 1077-3142 . 
  21. ^ a b Конюш, Петр; Ян, Фэй; Госслен, Филипп Анри; Миколайчик, Кристиан (24.02.2017). «Объединение вхождений высшего порядка для мешков со словами: обнаружение визуальных концепций». IEEE Transactions по анализу шаблонов и машинному анализу . 39 (2): 313–326. DOI : 10.1109 / TPAMI.2016.2545667 . hdl : 10044/1/39814 . ISSN 0162-8828 . PMID 27019477 .  
  22. ^ Jégou, H .; Douze, M .; Schmid, C .; Перес, П. (01.06.2010). Агрегирование локальных дескрипторов в компактное представление изображения . Конференция компьютерного общества IEEE 2010 года по компьютерному зрению и распознаванию образов . С. 3304–3311. DOI : 10.1109 / CVPR.2010.5540039 . ISBN 978-1-4244-6984-0.
  23. ^ Seeland, Марко; Рзанни, Майкл; Алакра, Недал; Wäldchen, Jana; Мэдер, Патрик (24 февраля 2017 г.). «Классификация видов растений с использованием изображений цветов - сравнительное исследование представлений местных особенностей» . PLOS ONE . 12 (2): e0170629. DOI : 10.1371 / journal.pone.0170629 . ISSN 1932-6203 . PMC 5325198 . PMID 28234999 .   

Внешние ссылки [ править ]

  • Мешок визуальных слов в двух словах - краткое руководство Бетеи Давида.
  • Демо-версия двух классификаторов «мешок слов » Л. Фей-Фей, Р. Фергуса и А. Торральба.
  • Набор инструментов для поиска крупномасштабных изображений Caltech : набор инструментов для Matlab / C ++, реализующий поиск перевернутых файлов для модели Bag of Words. Он также содержит реализации для быстрого приближенного поиска ближайшего соседа с использованием рандомизированного дерева kd , хеширования с учетом местоположения и иерархических k-средних .
  • Библиотека DBoW2 : библиотека, которая реализует быстрый набор слов на C ++ с поддержкой OpenCV .