Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В машинном обучении , классификации нескольких этикеток и сильно связанная с этим проблема мульти-вывода классификации представляют собой варианты классификации задачи , в которой несколько меток могут быть назначены для каждого экземпляра. Классификация с несколькими метками - это обобщение классификации по нескольким классам, которая представляет собой проблему с одной меткой категоризации экземпляров точно в один из более чем двух классов; в задаче с несколькими метками нет ограничений на то, скольким классам может быть назначен экземпляр.

Формально, классификация с несколькими метками - это проблема поиска модели, которая отображает входные данные x в двоичные векторы y (присваивая значение 0 или 1 для каждого элемента (метки) в y ).

Методы преобразования проблемы [ править ]

Для классификации с несколькими метками существует несколько методов преобразования проблем, которые можно условно разбить на:

  • Преобразование в проблемы бинарной классификации : базовый подход, называемый методом бинарной релевантности [1], сводится к независимому обучению одного бинарного классификатора для каждой метки. Учитывая невидимую выборку, комбинированная модель затем предсказывает все метки для этой выборки, для которых соответствующие классификаторы предсказывают положительный результат. Хотя этот метод разделения задачи на несколько бинарных задач может внешне напоминать методы один против всех (OvA) и один против остальных (OvR) для мультиклассовой классификации , он существенно отличается от обоих, поскольку один классификатор под бинарной релевантностью имеет дело с одной меткой, без какого-либо отношения к другим меткам. Классификатор цепьявляется альтернативным методом преобразования задачи классификации с несколькими метками в несколько задач двоичной классификации. Она отличается от бинарной релевантности тем, что метки предсказываются последовательно, а выходные данные всех предыдущих классификаторов (т. Е. Положительные или отрицательные для конкретной метки) вводятся в качестве признаков для последующих классификаторов. [1] Цепочки классификаторов применялись, например, для прогнозирования лекарственной устойчивости ВИЧ . [2] [3] Байесовская сеть также применяется к классификаторам оптимального порядка в цепочках классификаторов . [4]
  • Преобразование в задачу мультиклассовой классификации : преобразование набора меток (LP) создает один двоичный классификатор для каждой комбинации меток, присутствующей в обучающем наборе. Например, если возможные метки для примера были A, B и C, представление Powerset меток этой проблемы представляет собой задачу классификации нескольких классов с классами [0 0 0], [1 0 0], [0 1 0 ], [0 0 1], [1 1 0], [1 0 1], [0 1 1]. [1 1 1], где, например, [1 0 1] обозначает пример, в котором метки A и C присутствуют, а метка B отсутствует. [5]
  • Методы ансамбля : для создания классификатора ансамбля с несколькими метками можно использовать набор мультиклассовых классификаторов. В данном примере каждый классификатор выводит один класс (соответствующий одной метке в задаче с несколькими метками). Эти прогнозы затем объединяются ансамблевым методом, обычно схемой голосования, где каждый класс, который получает необходимый процент голосов от отдельных классификаторов (часто называемый порогом дискриминации [6] ), прогнозируется как существующая метка в мульти-метке. выход. Однако существуют более сложные ансамблевые методы, такие как комитетные машины . Другой вариант - случайное k-labelsets (RAKEL) алгоритм, который использует несколько классификаторов LP, каждый из которых обучен на случайном подмножестве фактических меток; предсказание метки затем выполняется схемой голосования. [7] Набор классификаторов с несколькими метками может использоваться аналогичным образом для создания классификатора ансамбля с несколькими метками. В этом случае каждый классификатор голосует один раз за каждую прогнозируемую метку, а не за одну метку.

Адаптированные алгоритмы [ править ]

Некоторые алгоритмы / модели классификации были адаптированы к задаче с несколькими метками без необходимости преобразования задачи. Примеры таких, в том числе для данных с несколькими этикетками.

  • k-ближайшие соседи : алгоритм ML-kNN расширяет классификатор k-NN до данных с несколькими метками. [8]
  • деревья решений : Clare - адаптированный алгоритм C4.5 для классификации по нескольким меткам; модификация включает в себя вычисления энтропии. [9] Усовершенствованный MMDT MMC, MMDT и SSC может классифицировать данные с несколькими метками на основе многозначных атрибутов без преобразования атрибутов в однозначные. Их также называют многозначными и многозначными методами классификации дерева решений. [10] [11] [12]
  • методы ядра для векторного вывода
  • нейронные сети : BP-MLL - это адаптация популярного алгоритма обратного распространения информации для обучения с несколькими метками. [13]

Парадигмы обучения [ править ]

На основе парадигм обучения существующие методы классификации с несколькими метками можно разделить на пакетное обучение и онлайн-машинное обучение . Алгоритмы пакетного обучения требуют, чтобы все образцы данных были доступны заранее. Он обучает модель, используя все обучающие данные, а затем предсказывает тестовую выборку, используя найденную взаимосвязь. С другой стороны, алгоритмы онлайн-обучения постепенно строят свои модели в последовательных итерациях. На итерации t онлайн-алгоритм получает выборку x t и предсказывает ее метку (метки) ŷ t, используя текущую модель; затем алгоритм получает y t , истинную метку (метки) x t, и обновляет свою модель на основе пары образец-метка: (x t , yт ).

Классификация потоков с несколькими метками [ править ]

Потоки данных , возможно, представляют собой бесконечные последовательности данных, которые непрерывно и быстро растут с течением времени. [14] Классификация потоков с несколькими метками (MLSC) - это версия задачи классификации с несколькими метками, которая выполняется в потоках данных. Иногда ее также называют онлайн-классификацией по нескольким меткам. Трудности классификации с несколькими метками (экспоненциальное число возможных наборов меток, захват зависимостей между метками) сочетаются с трудностями потоков данных (ограничения времени и памяти, адресация бесконечного потока конечными средствами, дрейф концепций ).

Многие методы MLSC прибегают к ансамблевым методам , чтобы повысить свои прогнозные характеристики и справиться с дрейфом концепций. Ниже приведены наиболее широко используемые в литературе ансамблевые методы:

  • Методы на основе Online Bagging (OzaBagging [15] ) : наблюдение за вероятностью наличия K многих из определенных точек данных в выборке начальной загрузки приблизительно равно Пуассону (1) для больших наборов данных, каждый входящий экземпляр данных в потоке данных может быть взвешен пропорционально в дистрибутив Пуассона (1), чтобы имитировать начальную загрузку в интерактивном режиме. Это называется онлайн-бэггингом (OzaBagging). В литературе предлагается множество методов с несколькими этикетками, использующих онлайн-упаковку, каждый из которых использует разные методы преобразования проблемы. EBR, [1] ECC, [1] EPS, [16] E B RT, [17] E B MT, [17] ML-случайные правила [18] являются примерами таких методов.
  • Методы на основе ADWIN Bagging [19] : методы Online Bagging для MLSC иногда комбинируются с явными механизмами обнаружения смещения концепций, такими как ADWIN [20] (Adaptive Window). ADWIN поддерживает окно переменного размера для обнаружения изменений в распределении данных и улучшает ансамбль, сбрасывая компоненты, которые плохо работают при дрейфе входящих данных. Как правило, буква «а» используется в качестве нижнего индекса в названии таких ансамблей, чтобы указать на использование детектора изменений ADWIN. E a BR, [19] E a CC, [19] E a HT PS [19] являются примерами таких ансамблей с несколькими метками.
  • GOOWE-ML [21] -На методы : Интерпретируя актуальность оценки каждого компонента ансамбля в качестве векторов в пространстве и этикеточной решения задачи наименьших квадратов в конце каждой партии, Геометрически-Оптимум Интернет-Weighted ансамбль для Multi-этикетки Предлагается классификация (GOOWE-ML). Ансамбль пытается минимизировать расстояние между взвешенным предсказанием его компонентов и основным истинным вектором для каждого экземпляра пакета. В отличие от Online Bagging и ADWIN Bagging, GOOWE-ML использует схему взвешенного голосования, при которой более эффективные компоненты ансамбля имеют больший вес. Набор GOOWE-ML со временем растет, и компонент с наименьшим весом заменяется новым компонентом, когда он заполняется в конце партии. ГОБР, [21]GOCC, [21] GOPS, [21] GORT [21] - это предлагаемые многокомпонентные ансамбли на основе GOOWE-ML.
  • Несколько окон [22]  : здесь модели BR, в которых используется скользящее окно, заменяются двумя окнами для каждой метки, одно для релевантных и одно для нерелевантных примеров. Экземпляры подвергаются избыточной или недостаточной выборке в соответствии с коэффициентом загрузки, который сохраняется между этими двумя окнами. Это позволяет обнаруживать дрейфы концепций, которые являются независимыми для каждой метки, и обрабатывать классовый дисбаланс (асимметрию в релевантных и нерелевантных примерах).

Статистика и показатели оценки [ править ]

Учитывая, что это набор меток для выборки данных (не путайте его с одним горячим вектором; это просто набор всех меток, принадлежащих этому образцу), степень, в которой набор данных является мульти-меткой, может быть отраженным в двух статистических данных:

  • Мощность метки - это среднее количество меток на один пример в наборе: где - общее количество выборок данных;
  • Плотность этикеток - это количество этикеток в образце, деленное на общее количество этикеток, усредненное по выборкам: где - общее количество доступных классов (которое является максимальным количеством элементов, которые могут составлять ).

Метрики оценки эффективности классификации с несколькими метками по своей сути отличаются от показателей, используемых в классификации по нескольким классам (или бинарной), из-за присущих различий проблем классификации. Если T обозначает истинный набор меток для данной выборки, а P - предсказанный набор меток, то для этой выборки могут быть определены следующие показатели:

  • Потеря Хэмминга : доля ошибочных меток в общем количестве меток, т. Е. Где - цель, является предсказанием и является оператором «Исключающий или», который возвращает ноль, когда цель и предсказание идентичны, и единицу в противном случае. Это функция потерь , поэтому оптимальное значение равно нулю, а его верхняя граница равна единице.
  • Тесно связанный индекс Жаккара , также называемый Intersection over Union в настройке с несколькими метками, определяется как количество правильно предсказанных меток, деленное на объединение предсказанных и истинных меток , где и - наборы предсказанных меток и истинных меток соответственно.
  • Точность, отзыв и оценка : точность есть , отзыв есть и есть их гармоническое среднее . [23] F 1 {\displaystyle F_{1}}
  • Точное совпадение (также называемое точностью подмножества): это самый строгий показатель, указывающий процент образцов, все метки которых классифицированы правильно.

Перекрестная проверка в настройках с несколькими метками усложняется тем, что обычный (бинарный / многоклассовый) способ стратифицированной выборки не работает; предложены альтернативные способы приблизительной стратифицированной выборки. [24]

Реализации и наборы данных [ править ]

Java-реализации алгоритмов с несколькими метками доступны в программных пакетах Mulan и Meka , оба основаны на Weka .

Scikit учиться Python пакет реализует некоторые мульти-этикетки алгоритмы и метрики .

Scikit-multilearn пакет Python специально обслуживает классификации мульти-меток. Он обеспечивает многокомпонентную реализацию нескольких хорошо известных методов, включая SVM, kNN и многие другие . Пакет построен на основе экосистемы scikit-learn .

Метод бинарной релевантности, цепочки классификаторов и другие многозначные алгоритмы с множеством различных базовых обучающихся реализованы в R-пакете mlr [25]

Список часто используемых наборов данных с несколькими метками доступен на веб-сайте Mulan .

См. Также [ править ]

  • Мультиклассовая классификация
  • Множественное обучение
  • Структурированный прогноз
  • время жизни корреляции

Ссылки [ править ]

  1. ^ a b c d Джесси Рид, Бернхард Пфарингер, Джефф Холмс, Эйбе Франк. Цепочки классификаторов для классификации по нескольким меткам . Журнал машинного обучения. Springer. Vol. 85 (3), (2011).
  2. ^ Heider, D; Senge, R; Ченг, Вт; Hüllermeier, E (2013). «Классификация по нескольким меткам для использования информации о перекрестной резистентности в прогнозировании лекарственной устойчивости ВИЧ-1» . Биоинформатика . 29 (16): 1946–52. DOI : 10.1093 / биоинформатики / btt331 . PMID  23793752 .
  3. ^ Riemenschneider, M; Senge, R; Neumann, U; Hüllermeier, E; Хайдер, Д. (2016). «Использование информации о перекрестной резистентности протеазы ВИЧ-1 и обратной транскриптазы для улучшенного прогнозирования лекарственной устойчивости посредством классификации с несколькими метками» . BioData Mining . 9 : 10. DOI : 10,1186 / s13040-016-0089-1 . PMC 4772363 . PMID 26933450 .  
  4. ^ Суфан, Осман; Ба-Алави, Вой; Афиф, Моатаз; Эссак, Магбубах; Калнис, Панос; Баич, Владимир Б. (10.11.2016). «DRABAL: новый метод разработки больших высокопроизводительных скрининговых анализов с использованием байесовского активного обучения» . Журнал химинформатики . 8 : 64. DOI : 10,1186 / s13321-016-0177-8 . ISSN 1758-2946 . PMC 5105261 . PMID 27895719 .   
  5. ^ Сполаор, Ньютон; Черман, Эвертон Альварес; Монар, Мария Каролина; Ли, Хуэй Диана (март 2013 г.). «Сравнение методов выбора характеристик с несколькими метками с использованием подхода преобразования проблемы» . Электронные заметки по теоретической информатике . 292 : 135–151. DOI : 10.1016 / j.entcs.2013.02.010 . ISSN 1571-0661 . 
  6. ^ «Порог дискриминации - документация Yellowbrick 0.9» . www.scikit-yb.org . Проверено 29 ноября 2018 .
  7. ^ Tsoumakas, Grigorios; Влахавас, Иоаннис (2007). Случайные k- метки: метод ансамбля для классификации по нескольким меткам (PDF) . ECML. Архивировано 29 июля 2014 года из оригинального (PDF) . Проверено 26 июля 2014 .
  8. ^ Чжан, ML; Чжоу, ZH (2007). «ML-KNN: ленивый подход к обучению с несколькими метками». Распознавание образов . 40 (7): 2038–2048. CiteSeerX 10.1.1.538.9597 . DOI : 10.1016 / j.patcog.2006.12.019 . 
  9. ^ Маджаров, Gjorgji; Кочев, Драги; Горгжевикдж, Деян; Джероски, Сашо (2012). «Обширное экспериментальное сравнение методов многокомпонентного обучения». Распознавание образов . 45 (9): 3084–3104. DOI : 10.1016 / j.patcog.2012.03.004 .
  10. ^ Чен, Йен-Лян; Сюй, Чанг-Лин; Чоу, Ши-чжи (2003). «Построение многозначного и многозначного дерева решений». Экспертные системы с приложениями . 25 (2): 199–209. DOI : 10.1016 / S0957-4174 (03) 00047-2 .
  11. ^ Чжоу, Шихчи; Сюй, Чан-Лин (2005-05-01). «MMDT: многозначный и многозначный древовидный классификатор решений для интеллектуального анализа данных». Экспертные системы с приложениями . 28 (4): 799–812. DOI : 10.1016 / j.eswa.2004.12.035 .
  12. ^ Ли, Хун; Го, Юэ-цзянь; Ву, Мин; Ли, Пинг; Сян, Яо (01.12.2010). «Совместите разложение многозначных атрибутов с обучением по нескольким меткам». Экспертные системы с приложениями . 37 (12): 8721–8728. DOI : 10.1016 / j.eswa.2010.06.044 .
  13. ^ Чжан, ML; Чжоу, ZH (2006). Нейронные сети с несколькими метками с приложениями к функциональной геномике и категоризации текста (PDF) . IEEE Transactions по разработке знаний и данных. 18 . С. 1338–1351.
  14. ^ Аггарваль, Чара С., ред. (2007). Потоки данных . Достижения в системах баз данных . 31 . DOI : 10.1007 / 978-0-387-47534-9 . ISBN 978-0-387-28759-1.
  15. ^ Oza, Nikunj (2005). «Интернет-упаковка и разгон». Международная конференция IEEE по системам, человеку и кибернетике . ЛВП : 2060/20050239012 .
  16. ^ Прочтите, Джесси; Пфарингер, Бернхард; Холмс, Джефф (2008-12-15). Классификация по нескольким меткам с использованием ансамблей сокращенных наборов . Компьютерное общество IEEE. С. 995–1000. DOI : 10.1109 / ICDM.2008.74 . hdl : 10289/8077 . ISBN 9780769535029. S2CID  16059274 .
  17. ^ а б Осойник, Аляź; Панов, PanăźE; DźEroski, Sašo (2017-06-01). «Классификация по нескольким меткам с помощью многоцелевой регрессии для потоков данных» . Машинное обучение . 106 (6): 745–770. DOI : 10.1007 / s10994-016-5613-5 . ISSN 0885-6125 . 
  18. ^ Соуза, Рикардо; Гама, Жоао (24 января 2018 г.). «Многопозиционная классификация высокоскоростных потоков данных с использованием правил адаптивной модели и случайных правил». Прогресс в области искусственного интеллекта . 7 (3): 177–187. DOI : 10.1007 / s13748-018-0142-Z . ISSN 2192-6352 . S2CID 32376722 .  
  19. ^ a b c d Прочтите, Джесси; Бифет, Альберт; Холмс, Джефф; Пфарингер, Бернхард (21 февраля 2012 г.). «Масштабируемая и эффективная классификация с несколькими метками для развивающихся потоков данных» . Машинное обучение . 88 (1–2): 243–272. DOI : 10.1007 / s10994-012-5279-6 . ISSN 0885-6125 . 
  20. ^ Бифет, Альберт; Гавальда, Рикард (2007-04-26), «Обучение на основе изменяющихся во времени данных с помощью адаптивного окна», Труды Международной конференции SIAM 2007 года по интеллектуальному анализу данных , Общество промышленной и прикладной математики, стр. 443–448, CiteSeerX 10.1. 1.215.8387 , DOI : 10,1137 / 1.9781611972771.42 , ISBN  9780898716306
  21. ^ a b c d e Бююкчакир, Аликан; Бонаб, Хамед; Джан, Фазли (17.10.2018). Новый онлайн-ансамбль с накоплением для классификации потоков с несколькими метками . ACM. С. 1063–1072. arXiv : 1809.09994 . DOI : 10.1145 / 3269206.3271774 . ISBN 9781450360142. S2CID  52843253 .
  22. ^ Xioufis, Элефтериоса Spyromitros; Спилиопулу, Майра; Цумакас, Григориос; Влахавас, Иоаннис (16.07.2011). Работа с дрейфом концепций и несбалансированностью классов при классификации потоков с несколькими метками . AAAI Press. С. 1583–1588. DOI : 10.5591 / 978-1-57735-516-8 / IJCAI11-266 . ISBN 9781577355144.
  23. ^ Godbole, Шантан; Сараваги, Сунита (2004). Дискриминационные методы для классификации с несколькими метками (PDF) . Достижения в области обнаружения знаний и интеллектуального анализа данных. С. 22–30.
  24. ^ Сечидис, Константинос; Цумакас, Григориос; Влахавас, Иоаннис (2011). О стратификации данных с несколькими этикетками (PDF) . ECML PKDD . С. 145–158.
  25. ^ Филипп Пробст, Набережная Au, Джузеппе Казаликкио, Клеменс Штахль, Бернд Бишль. Классификация мультиэтикеток с пакетом R мл . The R Journal (2017) 9: 1, страницы 352-369.

Дальнейшее чтение [ править ]

  • Маджаров, Гьоргджи; Кочев, Драги; Горгжевикдж, Деян; Джероски, Сашо (2012). «Обширное экспериментальное сравнение методов многокомпонентного обучения». Распознавание образов . 45 (9): 3084–3104. DOI : 10.1016 / j.patcog.2012.03.004 .