Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Винсоризация или выигрышизация - это преобразование статистики путем ограничения экстремальных значений в статистических данных, чтобы уменьшить влияние возможных ложных выбросов . Он назван в честь инженера-биостатиста Чарльза П. Винзора (1895–1951). Эффект такой же , как отсечения в обработке сигналов.

На распределение многих статистических данных могут сильно влиять выбросы. Типичная стратегия - установить для всех выбросов определенный процентиль данных; например, при победе на 90% все данные ниже 5-го процентиля будут установлены как 5-й процентиль, а данные выше 95-го процентиля будут установлены как 95-й процентиль. Винзоризированные оценки обычно более устойчивы к выбросам, чем их более стандартные формы, хотя есть альтернативы, такие как усечение , которые позволят добиться аналогичного эффекта.

Рассмотрим набор данных, состоящий из:

{92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, −40 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, среднее значение = 101,5)

Данные ниже 5-го процентиля лежат между -40 и -5, а данные выше 95-го процентиля - между 101 и 1053. (Значения выделены жирным шрифтом). Тогда 90% -ная победа приведет к следующему:

{92, 19, 101 , 58, 101 , 91, 26, 78, 10, 13, −5 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, среднее = 55,65)

Python может обрабатывать данные с помощью библиотеки SciPy :

из  scipy.stats.mstats  import  winsorize winsorize ([ 92 ,  19 ,  101 ,  58 ,  1053 ,  91 ,  26 ,  78 ,  10 ,  13 ,  - 40 ,  101 ,  86 ,  85 ,  15 ,  89 ,  89 ,  28 ,  - 5 ,  41 ],  пределы = [ 0,05 ,  0,05 ])

R может обрабатывать данные с помощью пакета DescTools:

библиотека ( DescTools ) a <- c ( 92 ,  19 ,  101 ,  58 ,  1053 ,  91 ,  26 ,  78 ,  10 ,  13 ,  -40 ,  101 ,  86 ,  85 ,  15 ,  89 ,  89 ,  28 ,  -5 ,  41 ) DescTools :: Winsorize ( a ,  probs  =  c( 0,05 ,  0,95 ))

Обратите внимание, что победа не эквивалентна простому исключению данных, которое представляет собой более простую процедуру, называемую обрезкой или усечением , но является методом цензуры данных.

В усеченной оценке экстремальные значения отбрасываются; в оценщике с победой крайние значения вместо этого заменяются определенными процентилями (усеченным минимумом и максимумом).

Таким образом, выигрышное среднее - это не то же самое, что усеченное среднее . Например, усеченное 10% среднее - это среднее значение от 5-го до 95-го процентиля данных, тогда как среднее 90% -ное усеченное значение устанавливает нижние 5% для 5-го перцентиля, верхние 5% для 95-го процентиля, а затем усредняет данные. В предыдущем примере усеченное среднее значение будет получено из меньшего набора:

{92, 19, 101 , 58, 91, 26, 78, 10, 13,       101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 18, среднее значение = 56,5)

В этом случае выигрышное среднее может быть эквивалентно выражено как средневзвешенное усеченное среднее и 5-й и 95-й процентили (для 10-процентного выигрышного среднего 0,05-кратного 5-го процентиля, 0,9-кратного 10-процентного усеченного среднего и 0,05-кратного 95-й процентиль), хотя, как правило, выигрышная статистика не обязательно должна быть выражена в терминах соответствующей усеченной статистики.

Более формально они различны, потому что статистика заказов не является независимой.

Винсоризация используется в контексте методологии опроса , чтобы «урезать» экстремальные веса случаев неполучения ответов [1]

  1. ^ Ли, Брайан К., Джастин Лесслер и Элизабет А. Стюарт. «Уменьшение веса и взвешивание оценок склонности». PloS one 6.3 (2011): e18174. ссылка на сайт