Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Масштабирование характеристик - это метод, используемый для нормализации диапазона независимых переменных или характеристик данных. В обработке данных это также известно как нормализация данных и обычно выполняется на этапе предварительной обработки данных.

Мотивация [ править ]

Поскольку диапазон значений необработанных данных сильно различается, в некоторых алгоритмах машинного обучения целевые функции не будут работать должным образом без нормализации . Например, многие классификаторы вычисляют расстояние между двумя точками по евклидову расстоянию . Если одна из функций имеет широкий диапазон значений, расстояние будет регулироваться этой конкретной функцией. Следовательно, диапазон всех функций должен быть нормализован так, чтобы каждая функция вносила вклад приблизительно пропорционально конечному расстоянию.

Еще одна причина, по которой применяется масштабирование функций, заключается в том, что градиентный спуск сходится намного быстрее с масштабированием функций, чем без него. [1]

Также важно применять масштабирование признаков, если регуляризация используется как часть функции потерь (так, чтобы коэффициенты наказывались соответствующим образом).

Методы [ править ]

Изменение масштаба (нормализация минимума и максимума) [ править ]

Также известный как масштабирование min-max или min-max нормализация, это простейший метод, заключающийся в изменении масштаба диапазона функций для масштабирования диапазона в [0, 1] или [-1, 1]. Выбор целевого диапазона зависит от характера данных. Общая формула для min-max [0, 1] задается как:

где - исходное значение, - нормализованное значение. Например, предположим, что у нас есть данные о весе учащихся, а их вес составляет [160 фунтов 200 фунтов]. Чтобы изменить масштаб этих данных, мы сначала вычитаем 160 из веса каждого ученика и делим результат на 40 (разница между максимальным и минимальным весом).

Чтобы изменить масштаб диапазона между произвольным набором значений [a, b], формула принимает следующий вид:

где - минимальные-максимальные значения.

Средняя нормализация [ править ]

где - исходное значение, - нормализованное значение. Существует еще одна форма нормализации средних значений, когда мы делим на стандартное отклонение, которое также называется стандартизацией.

Стандартизация (нормализация по Z-баллам) [ править ]

В машинном обучении мы можем обрабатывать различные типы данных, например аудиосигналы и значения пикселей для данных изображения, и эти данные могут включать несколько измерений . Стандартизация признаков делает значения каждого признака в данных нулевым средним (при вычитании среднего в числителе) и единичной дисперсией. Этот метод широко используется для нормализации во многих алгоритмах машинного обучения (например, опорных векторных машинах , логистической регрессии и искусственных нейронных сетях ). [2] [ необходима цитата ] Общий метод расчета заключается в определении среднего распределения и стандартного отклонениядля каждой функции. Затем мы вычитаем среднее значение из каждой характеристики. Затем мы делим значения (среднее значение уже вычтено) каждого признака на его стандартное отклонение.

Где - исходный вектор признаков, - среднее значение этого вектора признаков и его стандартное отклонение.

Масштабирование до единичной длины [ править ]

Другой вариант, который широко используется в машинном обучении, - это масштабирование компонентов вектора признаков так, чтобы полный вектор имел длину, равную единице. Обычно это означает деление каждого компонента на евклидову длину вектора:

В некоторых приложениях (например, функции гистограммы) может быть более практичным использовать норму L 1 (например, геометрию такси ) вектора признаков. Это особенно важно, если на следующих этапах обучения скалярная метрика используется в качестве меры расстояния. [ почему? ]

Заявление [ править ]

При стохастическом градиентном спуске масштабирование признаков иногда может улучшить скорость сходимости алгоритма [2] [ необходима ссылка ] . В машинах опорных векторов [3] это может сократить время на поиск опорных векторов. Обратите внимание, что масштабирование функций изменяет результат SVM [ необходима цитата ] .

См. Также [ править ]

  • Нормализация (статистика)
  • Стандартный балл
  • fMLLR , Пространство признаков Линейная регрессия максимального правдоподобия

Ссылки [ править ]

  1. Иоффе, Сергей; Кристиан Сегеди (2015). «Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариального сдвига». arXiv : 1502.03167 [ cs.LG ].
  2. ^ a b Грус, Джоэл (2015). Наука о данных с нуля . Севастополь, Калифорния: О'Рейли. стр. 99, 100. ISBN 978-1-491-90142-7.
  3. ^ Juszczak, P .; Налог DMJ; RPW Dui (2002). «Масштабирование функций в описаниях векторных данных поддержки». Proc. 8-й год. Конф. Adv. Школьный компьютер. Визуализация : 25–30. CiteSeerX 10.1.1.100.2524 . 

Дальнейшее чтение [ править ]

  • Хан, Цзявэй; Камбер, Мишлен; Пей, Цзянь (2011). «Преобразование и дискретизация данных» . Data Mining: концепции и методы . Эльзевир. С. 111–118.

Внешние ссылки [ править ]

  • Лекция Эндрю Нг о масштабировании функций