Винсоризация или выигрышизация - это преобразование статистики путем ограничения экстремальных значений в статистических данных, чтобы уменьшить влияние возможных ложных выбросов . Он назван в честь инженера-биостатиста Чарльза П. Винзора (1895–1951). Эффект такой же , как отсечения в обработке сигналов.
На распределение многих статистических данных могут сильно влиять выбросы. Типичная стратегия - установить для всех выбросов определенный процентиль данных; например, при победе на 90% все данные ниже 5-го процентиля будут установлены как 5-й процентиль, а данные выше 95-го процентиля будут установлены как 95-й процентиль. Винзоризированные оценки обычно более устойчивы к выбросам, чем их более стандартные формы, хотя есть альтернативы, такие как усечение , которые позволят добиться аналогичного эффекта.
Рассмотрим набор данных, состоящий из:
- {92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, −40 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, среднее значение = 101,5)
Данные ниже 5-го процентиля лежат между -40 и -5, а данные выше 95-го процентиля - между 101 и 1053. (Значения выделены жирным шрифтом). Тогда 90% -ная победа приведет к следующему:
- {92, 19, 101 , 58, 101 , 91, 26, 78, 10, 13, −5 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, среднее = 55,65)
Python может обрабатывать данные с помощью библиотеки SciPy :
из scipy.stats.mstats import winsorize winsorize ([ 92 , 19 , 101 , 58 , 1053 , 91 , 26 , 78 , 10 , 13 , - 40 , 101 , 86 , 85 , 15 , 89 , 89 , 28 , - 5 , 41 ], пределы = [ 0,05 , 0,05 ])
R может обрабатывать данные с помощью пакета DescTools:
библиотека ( DescTools ) a <- c ( 92 , 19 , 101 , 58 , 1053 , 91 , 26 , 78 , 10 , 13 , -40 , 101 , 86 , 85 , 15 , 89 , 89 , 28 , -5 , 41 ) DescTools :: Winsorize ( a , probs = c( 0,05 , 0,95 ))
Обратите внимание, что победа не эквивалентна простому исключению данных, которое представляет собой более простую процедуру, называемую обрезкой или усечением , но является методом цензуры данных.
В усеченной оценке экстремальные значения отбрасываются; в оценщике с победой крайние значения вместо этого заменяются определенными процентилями (усеченным минимумом и максимумом).
Таким образом, выигрышное среднее - это не то же самое, что усеченное среднее . Например, усеченное 10% среднее - это среднее значение от 5-го до 95-го процентиля данных, тогда как среднее 90% -ное усеченное значение устанавливает нижние 5% для 5-го перцентиля, верхние 5% для 95-го процентиля, а затем усредняет данные. В предыдущем примере усеченное среднее значение будет получено из меньшего набора:
- {92, 19, 101 , 58, 91, 26, 78, 10, 13, 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 18, среднее значение = 56,5)
В этом случае выигрышное среднее может быть эквивалентно выражено как средневзвешенное усеченное среднее и 5-й и 95-й процентили (для 10-процентного выигрышного среднего 0,05-кратного 5-го процентиля, 0,9-кратного 10-процентного усеченного среднего и 0,05-кратного 95-й процентиль), хотя, как правило, выигрышная статистика не обязательно должна быть выражена в терминах соответствующей усеченной статистики.
Более формально они различны, потому что статистика заказов не является независимой.
Винсоризация используется в контексте методологии опроса , чтобы «урезать» экстремальные веса случаев неполучения ответов [1]
- Гастингс-младший, Сесил; Мостеллер, Фредерик; Тьюки, Джон В .; Уинзор, Чарльз П. (1947). «Низкие моменты для небольших выборок: сравнительное исследование статистики заказов» . Анналы математической статистики . 18 (3): 413–426. DOI : 10.1214 / АОМ / 1177730388 .
- Диксон, WJ (1960). «Упрощенная оценка по цензуре нормальных выборок» . Анналы математической статистики . 31 (2): 385–391. DOI : 10.1214 / АОМ / 1177705900 .
- Тьюки, JW (1962). «Будущее анализа данных» . Анналы математической статистики . 33 (1): 1–67 [стр. 18]. DOI : 10.1214 / АОМ / 1177704711 . JSTOR 2237638 . CS1 maint: обескураженный параметр ( ссылка )
- «Винсоризация» . Р-блогеры . 30 июня 2011 г.
- ^ Ли, Брайан К., Джастин Лесслер и Элизабет А. Стюарт. «Уменьшение веса и взвешивание оценок склонности». PloS one 6.3 (2011): e18174. ссылка на сайт