Категоризация объектов на основе сегментации

Проблема сегментации изображения связана с разделением изображения на несколько областей в соответствии с некоторым критерием однородности. Эта статья в первую очередь посвящена теоретико-графическим подходам к сегментации изображений, использующим разбиение графа с помощью минимального или максимального отсечения . Категоризацию объектов на основе сегментации можно рассматривать как частный случай спектральной кластеризации, применяемой к сегментации изображения.

Приложения сегментации изображений

Сжатие изображения
- Сегментируйте изображение на однородные компоненты и используйте наиболее подходящий алгоритм сжатия для каждого компонента, чтобы улучшить сжатие.
Медицинский диагноз
- Автоматическая сегментация изображений МРТ для выявления раковых участков.
Картирование и измерение
- Автоматический анализ данных дистанционного зондирования со спутников для определения и измерения интересующих регионов.
Транспорт
- Разделение транспортной сети позволяет выделить регионы, характеризующиеся однородным состоянием движения. ^[1]

Сегментация с использованием нормализованных разрезов

Теоретико-графическая формулировка

Набор точек в произвольном пространстве признаков может быть представлен как взвешенный неориентированный полный граф G = (V, E), где узлы графа являются точками в пространстве признаков. Вес ${\ displaystyle w_ {ij}}$ края ${\ displaystyle (i, j) \ in E}$ является функцией подобия между узлами ${\ displaystyle i}$ а также ${\ displaystyle j}$ . В этом контексте мы можем сформулировать проблему сегментации изображения как проблему разделения графа, которая требует разделения ${\ Displaystyle V_ {1}, \ cdots, V_ {k}}$ множества вершин ${\ displaystyle V}$ , где по некоторой мере вершины любого множества ${\ displaystyle V_ {i}}$ имеют большое сходство, а вершины в двух разных множествах ${\ displaystyle V_ {i}, V_ {j}}$ имеют низкое сходство.

Нормализованные разрезы

Пусть G = ( V , E , w ) - взвешенный граф. Позволять ${\ displaystyle A}$ а также ${\ displaystyle B}$ - два подмножества вершин.

Позволять:

{\ displaystyle w (A, B) = \ sum \ limits _ {i \ in A, j \ in B} w_ {ij}}

{\ displaystyle \ operatorname {ncut} (A, B) = {\ frac {w (A, B)} {w (A, V)}} + {\ frac {w (A, B)} {w (B , V)}}}

{\ displaystyle \ operatorname {nassoc} (A, B) = {\ frac {w (A, A)} {w (A, V)}} + {\ frac {w (B, B)} {w (B , V)}}}

В подходе нормализованных разрезов ^[2] для любого разреза ${\ displaystyle (S, {\ overline {S}})}$ в ${\ displaystyle G}$ , ${\ displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ измеряет сходство между разными частями, и ${\ displaystyle \ operatorname {nassoc} (S, {\ overline {S}})}$ измеряет общее сходство вершин в одной и той же части.

С ${\ displaystyle \ operatorname {ncut} (S, {\ overline {S}}) = 2- \ operatorname {nassoc} (S, {\ overline {S}})}$ , порез ${\ displaystyle (S ^ {*}, {\ overline {S}} ^ {*})}$ что сводит к минимуму ${\ displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ также максимизирует ${\ displaystyle \ operatorname {nassoc} (S, {\ overline {S}})}$ .

Расчет разреза ${\ displaystyle (S ^ {*}, {\ overline {S}} ^ {*})}$ что сводит к минимуму ${\ displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ это NP-сложная проблема. Однако мы можем найти за полиномиальное время разрез ${\ displaystyle (S, {\ overline {S}})}$ малой нормированной массы ${\ displaystyle \ operatorname {ncut} (S, {\ overline {S}})}$ с использованием спектральных методов .

Алгоритм ncut

Позволять:

{\ displaystyle d (i) = \ sum \ limits _ {j} w_ {ij}}

Кроме того, пусть D будет ${\ Displaystyle п \ раз п}$ диагональная матрица с ${\ displaystyle d}$ по диагонали, и пусть ${\ displaystyle W}$ быть ${\ Displaystyle п \ раз п}$ симметричная матрица с ${\ displaystyle w_ {ij} = w_ {ji}}$ .

После некоторых алгебраических манипуляций получаем:

{\ displaystyle \ min \ limits _ {(S, {\ overline {S}})} \ operatorname {ncut} (S, {\ overline {S}}) = \ min \ limits _ {y} {\ frac { y ^ {T} (DW) y} {y ^ {T} Dy}}}

с учетом ограничений:

${\ displaystyle y_ {i} \ in \ {1, -b \}}$ , для некоторой постоянной ${\ displaystyle -b}$
${\ displaystyle y ^ {t} D1 = 0}$

Сведение к минимуму ${\ displaystyle {\ frac {y ^ {T} (DW) y} {y ^ {T} Dy}}}$ с учетом указанных выше ограничений является NP-трудным . Чтобы сделать проблему разрешимой, мы ослабляем ограничения на ${\ displaystyle y}$ , и позвольте ему принимать реальные значения. Расслабленная задача может быть решена путем решения обобщенной задачи на собственные значения ${\ Displaystyle (DW) y = \ lambda Dy}$ для второго наименьшего обобщенного собственного значения.

Алгоритм разбиения:

Учитывая набор функций, настройте взвешенный график ${\ Displaystyle G = (V, E)}$ , вычислим вес каждого ребра и суммируем информацию в ${\ displaystyle D}$ а также ${\ displaystyle W}$ .
Решать ${\ Displaystyle (DW) y = \ lambda Dy}$ для собственных векторов со вторыми наименьшими собственными значениями.
Используйте собственный вектор со вторым наименьшим собственным значением для разделения графа на две части (например, группировку по знаку).
Решите, следует ли разделить текущий раздел.
При необходимости рекурсивно разбейте сегментированные части.

Вычислительная сложность

Решение стандартной задачи на собственные значения для всех собственных векторов (например, с использованием алгоритма QR ) требует ${\ Displaystyle О (п ^ {3})}$ время. Это непрактично для приложений сегментации изображений, в которых ${\ displaystyle n}$ количество пикселей в изображении.

Поскольку в неразрезанном алгоритме используется только один собственный вектор, соответствующий второму наименьшему обобщенному собственному значению, эффективность может быть значительно повышена, если решение соответствующей проблемы собственных значений выполняется безматричным способом , т. Е. Без явных манипуляций с или даже вычисление матрицы W, как, например, в алгоритме Ланцоша . Для безматричных методов требуется только функция, которая выполняет произведение матрица-вектор для заданного вектора на каждой итерации. Для сегментации изображения матрица W обычно разреженная, с несколькими ненулевыми элементами. ${\ Displaystyle О (п)}$ , поэтому такое произведение матрицы на вектор принимает ${\ Displaystyle О (п)}$ время.

Для изображений с высоким разрешением второе собственное значение часто плохо обусловлено , что приводит к медленной сходимости итерационных решателей собственных значений, таких как алгоритм Ланцоша . Предварительная подготовка - это ключевая технология, ускоряющая сходимость, например, в безматричном методе LOBPCG . Вычисление собственного вектора с использованием безматричного метода с оптимальным предварительным условием требует ${\ Displaystyle О (п)}$ время, что является оптимальной сложностью, поскольку собственный вектор имеет ${\ displaystyle n}$ составные части.

ОБРЕЗАТЬ

OBJ CUT ^[3] - эффективный метод, который автоматически сегментирует объект. Метод OBJ CUT - это универсальный метод, поэтому он применим к любой модели категории объектов. Для данного изображения D, содержащего экземпляр известной категории объекта, например коровы, алгоритм OBJ CUT вычисляет сегментацию объекта, то есть выводит набор меток m .

Пусть m - набор двоичных меток, и пусть ${\ displaystyle \ Theta}$ быть параметром формы ( ${\ displaystyle \ Theta}$ является формой, предшествующей этикеткам из модели слоистой графической структуры (LPS)). Энергетическая функция ${\ Displaystyle E (м, \ Theta)}$ определяется следующим образом.

{\ Displaystyle E (m, \ Theta) = \ sum \ phi _ {x} (D | m_ {x}) + \ phi _ {x} (m_ {x} | \ Theta) + \ sum \ Psi _ { xy} (m_ {x}, m_ {y}) + \ phi (D | m_ {x}, m_ {y})}

(1)

Термин ${\ Displaystyle \ phi _ {x} (D | m_ {x}) + \ phi _ {x} (m_ {x} | \ Theta)}$ называется унарным термином, а термин ${\ displaystyle \ Psi _ {xy} (m_ {x}, m_ {y}) + \ phi (D | m_ {x}, m_ {y})}$ называется попарным членом. Унарный термин состоит из вероятности ${\ displaystyle \ phi _ {x} (D | m_ {x})}$ на основе цвета и унарного потенциала ${\ displaystyle \ phi _ {x} (m_ {x} | \ Theta)}$ в зависимости от расстояния от ${\ displaystyle \ Theta}$ . Парный член состоит из априорного ${\ displaystyle \ Psi _ {xy} (m_ {x}, m_ {y})}$ и контрастный термин ${\ displaystyle \ phi (D | m_ {x}, m_ {y})}$ .

Лучшая маркировка ${\ displaystyle m ^ {*}}$ сводит к минимуму ${\ displaystyle \ sum \ limits _ {i} w_ {i} E (m, \ Theta _ {i})}$ , где ${\ displaystyle w_ {i}}$ вес параметра ${\ displaystyle \ Theta _ {i}}$ .

{\ displaystyle m ^ {*} = \ arg \ min \ limits _ {m} \ sum \ limits _ {i} w_ {i} E (m, \ Theta _ {i})}

(2)

Алгоритм

Для изображения D выбирается категория объекта, например, коровы или лошади.
Соответствующая модель LPS сопоставляется с D для получения образцов ${\ Displaystyle \ Theta _ {1}, \ cdots, \ Theta _ {s}}$
Целевая функция, задаваемая уравнением (2), определяется путем вычисления ${\ Displaystyle E (м, \ Theta _ {я})}$ и используя ${\ Displaystyle ш_ {я} = г (\ Тета _ {я} | Z)}$
Целевая функция минимизируется с помощью одной операции MINCUT для получения сегментации m .