Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти вопросы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )
|
Передискретизация и недостаточная выборка в анализе данных - это методы, используемые для корректировки распределения классов в наборе данных (т. Е. Соотношения между различными представленными классами / категориями). Эти термины используются как в статистической выборке, так и в методологии разработки опросов, а также в машинном обучении .
Передискретизация и недостаточная выборка - противоположные и примерно эквивалентные методы. Существуют также более сложные методы передискретизации, включая создание искусственных точек данных с помощью таких алгоритмов, как техника передискретизации синтетического меньшинства . [1] [2]
И передискретизация, и недостаточная выборка включают введение систематической ошибки для выбора большего количества выборок из одного класса, чем из другого, для компенсации дисбаланса, который либо уже присутствует в данных, либо может развиться, если была взята чисто случайная выборка. Дисбаланс данных может быть следующих типов:
Избыточная выборка обычно используется чаще, чем недостаточная выборка, особенно когда подробные данные еще не были собраны путем обследования, интервью или иным образом. Недостаточная выборка применяется гораздо реже. Переизбыток уже собранных данных стал проблемой только в эпоху «больших данных», и причины использования недостаточной выборки в основном практические и связаны с затратами ресурсов. В частности, хотя для того, чтобы сделать достоверные статистические выводы, требуется достаточно большой размер выборки, данные должны быть очищены, прежде чем их можно будет использовать. Очистка обычно включает в себя значительный человеческий компонент и, как правило, зависит от набора данных и аналитической задачи и, следовательно, требует времени и денег. Например:
По этим причинам обычно очищают столько данных, сколько необходимо для ответа на вопрос с разумной статистической достоверностью (см. Размер выборки), но не более того.
Случайная передискретизация включает в себя дополнение обучающих данных несколькими копиями некоторых классов меньшинства. Передискретизация может выполняться более одного раза (2x, 3x, 5x, 10x и т. Д.). Это один из самых ранних предложенных методов, который также оказался надежным. [3] Вместо того, чтобы дублировать каждую выборку в классе меньшинства, некоторые из них могут быть выбраны случайным образом с заменой.
Существует ряд методов, доступных для передискретизации набора данных, используемого в типичной задаче классификации (с использованием алгоритма классификации для классификации набора изображений с учетом помеченного обучающего набора изображений). Наиболее распространенный метод известен как SMOTE: метод передискретизации синтетических меньшинств. [4] Чтобы проиллюстрировать, как работает этот метод, рассмотрим некоторые обучающие данные, которые имеют s выборок и f функций в пространстве признаков данных. Обратите внимание, что эти функции для простоты являются непрерывными. В качестве примера рассмотрим набор данных о птицах для классификации. Пространством признаков для класса меньшинства, для которого мы хотим произвести избыточную выборку, могут быть длина клюва, размах крыльев и вес (все непрерывно). Чтобы затем выполнить передискретизацию, возьмите образец из набора данных и рассмотрите егоk ближайших соседей (в пространстве признаков). Чтобы создать точку синтетических данных, возьмите вектор между одним из этих k соседей и текущей точкой данных. Умножьте этот вектор на случайное число x, которое находится между 0 и 1. Добавьте его к текущей точке данных, чтобы создать новую точку синтетических данных.
С момента его предложения в метод SMOTE было внесено множество модификаций и расширений. [5]
Подход адаптивной синтетической выборки, или алгоритм ADASYN [6], основан на методологии SMOTE, смещая важность границы классификации на те классы меньшинств, которые являются сложными. ADASYN использует взвешенное распределение для различных примеров классов меньшинств в соответствии с их уровнем сложности в обучении, где больше синтетических данных генерируется для примеров классов меньшинств, которые труднее выучить.
Увеличение данных при анализе данных - это методы, используемые для увеличения объема данных путем добавления слегка измененных копий уже существующих данных или вновь созданных синтетических данных из существующих данных. Он действует как регуляризатор и помогает уменьшить переобучение при обучении модели машинного обучения. [7] (См .: Увеличение данных )
Произвольно удаляйте образцы из большинства классов с заменой или без нее. Это один из самых ранних методов, используемых для устранения дисбаланса в наборе данных, однако он может увеличить дисперсию классификатора и, скорее всего, отбросит полезные или важные образцы. [5]
Центроид кластера - это метод, который заменяет кластер выборок центроидом кластера алгоритма K-средних, где количество кластеров задается уровнем недостаточной выборки.
Связи Tomek устраняют нежелательное перекрытие между классами, при этом ссылки большинства классов удаляются до тех пор, пока все пары ближайших соседей, минимально удаленные друг от друга, не будут принадлежать к одному классу. Связь Tomek определяется следующим образом: для данной пары экземпляров , где и - расстояние между и , тогда пара называется связью Tomek, если нет такого экземпляра , что или . Таким образом, если два экземпляра образуют ссылку Tomek, то либо один из этих экземпляров является шумом, либо оба находятся рядом с границей. Таким образом, можно использовать ссылки Tomek, чтобы убрать перекрытие между классами. Удалив перекрывающиеся примеры, можно создать четко определенные кластеры в обучающем наборе и повысить эффективность классификации.
Недовыборка с ансамблевым обучением
Недавнее исследование показывает, что комбинация недостаточной выборки с ансамблевым обучением может достичь лучших результатов, см. IFME: фильтрация информации по нескольким примерам с недостаточной выборкой в среде цифровой библиотеки. [8]
Можно объединить методы передискретизации и недостаточной выборки в гибридную стратегию. Общие примеры включают в себя ссылки SMOTE и Tomek или SMOTE и отредактированные ближайшие соседи (ENN). Дополнительные способы обучения на несбалансированных наборах данных включают взвешивание обучающих примеров, введение различных затрат на неправильную классификацию для положительных и отрицательных примеров и самонастройку. [9]