Нечеткая кластеризация

Машинное обучение и интеллектуальный анализ данных
Часть серии по

Проблемы Классификация Кластеризация Регресс Обнаружение аномалий AutoML Правила ассоциации Обучение с подкреплением Структурированный прогноз Функциональная инженерия Особенности обучения Онлайн обучение Полу-контролируемое обучение Обучение без учителя Учимся ранжировать Введение в грамматику
Обучение с учителем ( классификация • регрессия ) Деревья решений Ансамбли Упаковка Повышение Случайный лес k -NN Линейная регрессия Наивный байесовский Искусственные нейронные сети Логистическая регрессия Перцептрон Вектор релевантности (RVM) Машина опорных векторов (SVM)
Кластеризация БЕРЕЗА ИЗЛЕЧИВАТЬ Иерархический k -средство Ожидание – максимизация (EM) DBSCAN ОПТИКА Средний сдвиг
Снижение размерности Факторный анализ CCA ICA LDA NMF PCA PGD t-SNE
Структурированный прогноз Графические модели Сеть Байеса Условное случайное поле Скрытый Марков
Обнаружение аномалий k -NN Фактор местного выброса
Искусственная нейронная сеть Автоэнкодер Когнитивные вычисления Глубокое обучение DeepDream Многослойный перцептрон RNN LSTM ГРУ ESN Ограниченная машина Больцмана GAN SOM Сверточная нейронная сеть U-Net Трансформатор Пиковая нейронная сеть Мемтранзистор Электрохимическая RAM (ECRAM)
Обучение с подкреплением Q-обучение SARSA Временная разница (TD)
Теория Компромисс смещения и дисперсии Теория вычислительного обучения Минимизация эмпирического риска Обучение Оккама PAC обучение Статистическое обучение Теория ВК
Площадки для машинного обучения NeurIPS ICML ML JMLR ArXiv: cs.LG
Глоссарий искусственного интеллекта Глоссарий искусственного интеллекта
Статьи по Теме Список наборов данных для исследований в области машинного обучения Краткое описание машинного обучения
v т е

Нечеткая кластеризация (также называемая мягкой кластеризацией или мягкими k- средними ) - это форма кластеризации, в которой каждая точка данных может принадлежать более чем одному кластеру.

Кластеризация или кластерный анализ включает в себя присвоение точек данных кластерам таким образом, чтобы элементы в одном кластере были как можно более похожими, а элементы, принадлежащие к разным кластерам, были как можно более разными. Кластеры идентифицируются с помощью мер сходства. Эти меры сходства включают расстояние, взаимосвязь и интенсивность. На основе данных или приложения могут быть выбраны различные меры сходства. ^[1]

Сравнение с жесткой кластеризацией [ править ]

При нечеткой кластеризации (также известной как жесткая кластеризация) данные делятся на отдельные кластеры, где каждая точка данных может принадлежать только одному кластеру. В нечеткой кластеризации точки данных потенциально могут принадлежать нескольким кластерам. Например, яблоко может быть красным или зеленым (жесткая кластеризация), но яблоко также может быть красным И зеленым (нечеткая кластеризация). Здесь яблоко может быть в определенной степени красным, а в определенной степени зеленым. Вместо яблока, принадлежащего зеленому [green = 1], а не красному [red = 0], яблоко может принадлежать зеленому [green = 0,5] и красному [red = 0,5]. Эти значения нормализованы от 0 до 1; однако они не представляют вероятности, поэтому нет необходимости складывать эти два значения в 1.

Членство [ править ]

Оценки членства присваиваются каждой из точек данных (тегов). Эти степени членства указывают на степень принадлежности точек данных к каждому кластеру. Таким образом, точки на краю кластера с более низкими оценками членства могут находиться в кластере в меньшей степени, чем точки в центре кластера.

Нечеткая кластеризация C-средних [ править ]

Одним из наиболее широко используемых алгоритмов нечеткой кластеризации является алгоритм нечеткой кластеризации C-средних (FCM).

История [ править ]

Кластеризация нечетких c-средних (FCM) была разработана JC Dunn в 1973 году ^[2] и усовершенствована JC Bezdek в 1981 году ^[3].

Общее описание [ править ]

Алгоритм нечетких c- средних очень похож на алгоритм k- средних :

Выберите количество кластеров .
Назначьте коэффициенты случайным образом каждой точке данных для того, чтобы она была в кластерах.
Повторяйте до тех пор, пока алгоритм не сойдется (то есть изменение коэффициентов между двумя итерациями не превышает заданный порог чувствительности): ${\ Displaystyle \ varepsilon}$
- Вычислите центроид для каждого кластера (показано ниже).
- Для каждой точки данных вычислите ее коэффициенты нахождения в кластерах.

Центроид [ править ]

Любая точка x имеет набор коэффициентов, определяющих степень нахождения в k- м кластере w _k ( x ). С нечеткими c- средними центроид кластера является средним значением всех точек, взвешенных по степени их принадлежности к кластеру, или, математически,

${\ displaystyle c_ {k} = {{\ sum _ {x} {w_ {k} (x)} ^ {m} x} \ over {\ sum _ {x} {w_ {k} (x)} ^ {m}}},}$

где m - гиперпараметр, определяющий, насколько нечетким будет кластер. Чем он выше, тем более нечетким будет кластер в итоге.

Алгоритм [ править ]

Алгоритм FCM пытается разбить конечный набор элементов на набор из c нечетких кластеров по некоторому заданному критерию. ${\ displaystyle n}$ ${\ displaystyle X = \ {\ mathbf {x} _ {1}, ..., \ mathbf {x} _ {n} \}}$

Учитывая конечный набор данных, алгоритм возвращает список центров кластеров и матрицу разбиения. ${\ displaystyle c}$ ${\ displaystyle C = \ {\ mathbf {c} _ {1}, ..., \ mathbf {c} _ {c} \}}$

${\ displaystyle W = w_ {i, j} \ in [0,1], \; i = 1, ..., n, \; j = 1, ..., c}$ , где каждый элемент`` сообщает степень, в которой элемент`` принадлежит кластеру . ${\ displaystyle w_ {ij}}$ $\mathbf {x} _{i}$ $\mathbf {c} _{j}$

FCM стремится минимизировать целевую функцию:

{\underset {C}{\operatorname {arg\,min} }}\sum _{i=1}^{n}\sum _{j=1}^{c}w_{ij}^{m}\left\|\mathbf {x} _{i}-\mathbf {c} _{j}\right\|^{2},

куда:

w_{ij}={\frac {1}{\sum _{k=1}^{c}\left({\frac {\left\|\mathbf {x} _{i}-\mathbf {c} _{j}\right\|}{\left\|\mathbf {x} _{i}-\mathbf {c} _{k}\right\|}}\right)^{\frac {2}{m-1}}}}.

Сравнение с кластеризацией K-средних [ править ]

Кластеризация K-средних также пытается минимизировать целевую функцию, показанную выше. Этот метод отличается от целевой функции k- средних добавлением значений принадлежности и фаззификатора , с . Фаззификатор определяет уровень нечеткости кластера. Большое значение приводит к меньшим значениям принадлежности и, следовательно, к более нечетким кластерам. В пределе членство сходится к 0 или 1, что подразумевает четкое разбиение. При отсутствии экспериментов или знания предметной области обычно устанавливается равным 2. Алгоритм также минимизирует внутрикластерную дисперсию, но имеет те же проблемы, что и «k» -средства; минимум - это локальный минимум, и результаты зависят от первоначального выбора весов. $w_{ij}$ $m\in R$ $m\geq 1$ $m$ $m$ $w_{ij}$ $m=1$ $w_{ij}$ $m$

Связанные алгоритмы [ править ]

Нечеткие C-средние (FCM) с автоматически определенным количеством кластеров могут повысить точность обнаружения. ^[4] Использование смеси гауссианов вместе с алгоритмом максимизации ожидания является более статистически формализованным методом, который включает в себя некоторые из этих идей: частичное членство в классах.

Пример [ править ]

Чтобы лучше понять этот принцип, ниже по оси x приведен классический пример одномерных данных.

Этот набор данных традиционно можно сгруппировать в два кластера. При выборе порога на оси x данные разделяются на два кластера. Полученные кластеры помечены буквами «A» и «B», как показано на следующем изображении. Следовательно, каждая точка, принадлежащая набору данных, будет иметь коэффициент принадлежности 1 или 0. Этот коэффициент принадлежности каждой соответствующей точки данных представлен включением оси y.

В нечеткой кластеризации каждая точка данных может принадлежать нескольким кластерам. Путем ослабления определения коэффициентов принадлежности от 1 до 0 эти значения могут варьироваться от любого значения от 1 до 0. На следующем изображении показан набор данных из предыдущей кластеризации, но теперь применяется нечеткая кластеризация c-средних. Сначала может быть сгенерировано новое пороговое значение, определяющее два кластера. Затем новые коэффициенты принадлежности для каждой точки данных генерируются на основе центроидов кластеров, а также расстояния от центроидов каждого кластера.

Как можно видеть, средняя точка данных принадлежит кластеру A и кластеру B. Значение 0,3 является коэффициентом принадлежности этой точки данных для кластера A. ^[5]

Приложения [ править ]

Проблемы кластеризации находят применение в науке о поверхности, биологии, медицине, психологии, экономике и многих других дисциплинах. ^[6]

Биоинформатика [ править ]

В области биоинформатики кластеризация используется для ряда приложений. Одно из применений - это метод распознавания образов для анализа данных экспрессии генов с микрочипов или других технологий. ^[7] В этом случае гены со сходными паттернами экспрессии сгруппированы в один и тот же кластер, а разные кластеры демонстрируют различные, хорошо разделенные паттерны экспрессии. Использование кластеризации может дать представление о функции и регуляции генов. ^[6] Поскольку нечеткая кластеризация позволяет генам принадлежать более чем к одному кластеру, это позволяет идентифицировать гены, которые условно совместно регулируются или совместно экспрессируются. ^[8] Например, на один ген может воздействовать более одного фактора транскрипции., и один ген может кодировать белок, который выполняет более одной функции. Таким образом, нечеткая кластеризация более уместна, чем жесткая кластеризация.

Анализ изображения [ править ]

Нечеткие c-средства были очень важным инструментом для обработки изображений при кластеризации объектов изображения. В 70-х годах математики ввели пространственный член в алгоритм FCM, чтобы повысить точность кластеризации в условиях шума. ^[9] Кроме того, алгоритмы FCM использовались для различения различных видов деятельности с использованием функций на основе изображений, таких как моменты Ху и Цернике. ^{[10] В} качестве альтернативы, модель нечеткой логики может быть описана на нечетких наборах , которые определены на трех компонентах цветового пространства HSL HSL и HSV ; Функции принадлежности призваны описывать цвета в соответствии с человеческой интуицией идентификации цвета. ^[11]

Маркетинг [ править ]

В маркетинге клиентов можно сгруппировать в нечеткие кластеры на основе их потребностей, выбора бренда, психографических профилей или других разделов, связанных с маркетингом. ^{[ необходима цитата ]}

Пример обработки изображения [ править ]

Изображение сегментировано с помощью нечеткой кластеризации с исходной (вверху слева), сгруппированной (вверху справа) и картой членства (внизу)

Сегментация изображений с использованием алгоритмов кластеризации k-средних уже давно используется для распознавания образов, обнаружения объектов и получения медицинских изображений. Однако из-за реальных ограничений, таких как шум, затенение и различия в камерах, традиционная жесткая кластеризация часто не может надежно выполнять задачи обработки изображений, как указано выше. ^[12] Нечеткая кластеризация была предложена как более подходящий алгоритм для выполнения этих задач. Это изображение в оттенках серого, которое подверглось нечеткой кластеризации в Matlab. ^[13] Исходное изображение отображается рядом с кластерным изображением. Цвета используются для визуального представления трех отдельных кластеров, используемых для определения принадлежности каждого пикселя. Ниже приведена диаграмма, которая определяет нечеткие коэффициенты принадлежности соответствующих им значений интенсивности.

В зависимости от приложения, для которого должны использоваться коэффициенты нечеткой кластеризации, к изображениям RGB могут применяться различные методы предварительной обработки . Преобразование RGB в HCL - обычная практика. ^[14]

См. Также [ править ]

Кластеризация пламени
Кластерный анализ
Алгоритм ожидания-максимизации (аналогичный, но более статистически формализованный метод)

Ссылки [ править ]

^ «Нечеткая кластеризация» . reference.wolfram.com . Проверено 26 апреля 2016 .
^ Dunn, JC (1973-01-01). «Нечеткий родственник процесса ISODATA и его использование при обнаружении компактных хорошо разделенных кластеров». Журнал кибернетики . 3 (3): 32–57. DOI : 10.1080 / 01969727308546046 . ISSN 0022-0280 .
^ Бездек, Джеймс С. (1981). Распознавание образов с помощью алгоритмов нечеткой целевой функции . ISBN 0-306-40671-3 .
^ Саид, Эль-Хами; Rowayda A Sadek; Мохамед Эль-Хореби (октябрь 2015 г.). «Эффективное обнаружение массы мозга с адаптивным кластеризованным нечетким C-средним и пороговым значением». Международная конференция IEEE 2015 г. по приложениям для обработки сигналов и изображений (ICSIPA) : 429–433.
^ «Кластеризация - нечеткие C-средства» . home.deib.polimi.it . Проверено 1 мая 2017 .
^ а б Бен-Дор, Амир; Шамир, Рон; Яхини, Зохар (1999-10-01). «Кластеризация паттернов экспрессии генов». Журнал вычислительной биологии . 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341 . DOI : 10.1089 / 106652799318274 . ISSN 1066-5277 . PMID 10582567 .
^ Valafar, Фарамарз (2002-12-01). «Методы распознавания образов в анализе данных микрочипов». Летопись Нью-Йоркской академии наук . 980 (1): 41–64. CiteSeerX 10.1.1.199.6445 . DOI : 10.1111 / j.1749-6632.2002.tb04888.x . ISSN 1749-6632 . PMID 12594081 .
^ Валафар Ф. Методы распознавания образов в анализе данных микрочипов. Летопись Нью-Йоркской академии наук. 2002 декабрь 1; 980 (1): 41-64.
^ Ахмед, Мохамед Н .; Yamany, Sameh M .; Мохамед, Невин; Фараг, Али А .; Мориарти, Томас (2002). «Модифицированный алгоритм нечетких C-средних для оценки поля смещения и сегментации данных МРТ» (PDF) . IEEE Transactions по медицинской визуализации . 21 (3): 193–199. CiteSeerX 10.1.1.331.9742 . DOI : 10.1109 / 42.996338 . PMID 11989844 . .
^ Банерджи, Tanvi (2014). «Распознавание дневной или ночной активности по видео с использованием методов нечеткой кластеризации». Транзакции IEEE в нечетких системах . 22 (3): 483–493. CiteSeerX 10.1.1.652.2819 . DOI : 10.1109 / TFUZZ.2013.2260756 .
^ Реза, Кашани; Кашани, Амир; Милани, Наргесс; Ахлаги, Пейман; Хезри, Кавех (2008). Надежная цветовая классификация с использованием нечетких рассуждений и генетических алгоритмов в футбольных лигах RoboCup . Робокубок . Конспект лекций по информатике. 5001 . С. 548–555. DOI : 10.1007 / 978-3-540-68847-1_59 . ISBN 978-3-540-68846-4.
Перейти ↑ Yang, Yong (2009). «Сегментация изображений на основе нечеткой кластеризации с информацией о соседстве» (PDF) . Optica Applicata . XXXIX .
^ "Нечеткая кластеризация - MATLAB и Simulink" . www.mathworks.com . Проверено 3 мая 2017 .
^ Лекка, Паола (2011). Системные подходы в биоинформатике и вычислительной системной биологии . IGI Global. п. 9. ISBN 9781613504369.

[1] «Нечеткая кластеризация» . reference.wolfram.com . Проверено 26 апреля 2016 .

[2] Dunn, JC (1973-01-01). «Нечеткий родственник процесса ISODATA и его использование при обнаружении компактных хорошо разделенных кластеров». Журнал кибернетики . 3 (3): 32–57. DOI : 10.1080 / 01969727308546046 . ISSN 0022-0280 .

[3] Бездек, Джеймс С. (1981). Распознавание образов с помощью алгоритмов нечеткой целевой функции . ISBN 0-306-40671-3 .

[4] Саид, Эль-Хами; Rowayda A Sadek; Мохамед Эль-Хореби (октябрь 2015 г.). «Эффективное обнаружение массы мозга с адаптивным кластеризованным нечетким C-средним и пороговым значением». Международная конференция IEEE 2015 г. по приложениям для обработки сигналов и изображений (ICSIPA) : 429–433.

[5] «Кластеризация - нечеткие C-средства» . home.deib.polimi.it . Проверено 1 мая 2017 .

[:0-6] а б Бен-Дор, Амир; Шамир, Рон; Яхини, Зохар (1999-10-01). «Кластеризация паттернов экспрессии генов». Журнал вычислительной биологии . 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341 . DOI : 10.1089 / 106652799318274 . ISSN 1066-5277 . PMID 10582567 .

[7] Valafar, Фарамарз (2002-12-01). «Методы распознавания образов в анализе данных микрочипов». Летопись Нью-Йоркской академии наук . 980 (1): 41–64. CiteSeerX 10.1.1.199.6445 . DOI : 10.1111 / j.1749-6632.2002.tb04888.x . ISSN 1749-6632 . PMID 12594081 .

[8] Валафар Ф. Методы распознавания образов в анализе данных микрочипов. Летопись Нью-Йоркской академии наук. 2002 декабрь 1; 980 (1): 41-64.

[fuzzy_c_means-9] Ахмед, Мохамед Н .; Yamany, Sameh M .; Мохамед, Невин; Фараг, Али А .; Мориарти, Томас (2002). «Модифицированный алгоритм нечетких C-средних для оценки поля смещения и сегментации данных МРТ» (PDF) . IEEE Transactions по медицинской визуализации . 21 (3): 193–199. CiteSeerX 10.1.1.331.9742 . DOI : 10.1109 / 42.996338 . PMID 11989844 . .

[10] Банерджи, Tanvi (2014). «Распознавание дневной или ночной активности по видео с использованием методов нечеткой кластеризации». Транзакции IEEE в нечетких системах . 22 (3): 483–493. CiteSeerX 10.1.1.652.2819 . DOI : 10.1109 / TFUZZ.2013.2260756 .

[fuzzyset-11] Реза, Кашани; Кашани, Амир; Милани, Наргесс; Ахлаги, Пейман; Хезри, Кавех (2008). Надежная цветовая классификация с использованием нечетких рассуждений и генетических алгоритмов в футбольных лигах RoboCup . Робокубок . Конспект лекций по информатике. 5001 . С. 548–555. DOI : 10.1007 / 978-3-540-68847-1_59 . ISBN 978-3-540-68846-4.

[12] Перейти ↑ Yang, Yong (2009). «Сегментация изображений на основе нечеткой кластеризации с информацией о соседстве» (PDF) . Optica Applicata . XXXIX .

[13] "Нечеткая кластеризация - MATLAB и Simulink" . www.mathworks.com . Проверено 3 мая 2017 .

[14] Лекка, Паола (2011). Системные подходы в биоинформатике и вычислительной системной биологии . IGI Global. п. 9. ISBN 9781613504369.