Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Рис. 1. Ящичный график данных эксперимента Майкельсона – Морли, показывающий четыре выброса в среднем столбце, а также один выброс в первом столбце.

В статистике , останец является данные указывают , что существенно отличается от других наблюдений. [1] [2] Выброс может быть из-за изменчивости измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных . [3] Выброс может вызвать серьезные проблемы при статистическом анализе.

Выбросы могут возникать случайно в любом распределении, но они часто указывают либо на ошибку измерения, либо на то, что популяция имеет распределение с тяжелыми хвостами . В первом случае их желают отбросить или использовать статистику, устойчивую к выбросам, тогда как во втором случае они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожными при использовании инструментов или интуиции, предполагающих нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут быть двумя отдельными подгруппами, или могут указывать на «правильное испытание» или «ошибку измерения»; это моделируется смешанной моделью .

В большинстве более крупных выборок данных некоторые точки данных будут дальше от среднего значения выборки, чем это считается разумным. Это может быть из-за случайной систематической ошибки или недостатков в теории, которая породила предполагаемое семейство вероятностных распределений , или может быть, что некоторые наблюдения далеки от центра данных. Таким образом, выбросы могут указывать на ошибочные данные, ошибочные процедуры или области, в которых определенная теория может быть неверной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за каких-либо аномальных условий).

Выбросы, являющиеся наиболее экстремальными наблюдениями, могут включать в себя максимум или минимум выборки , или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не всегда являются выбросами, потому что они могут быть не слишком далеки от других наблюдений.

Наивная интерпретация статистики, полученной из наборов данных, которые включают выбросы, может вводить в заблуждение. Например, если вычислить среднюю температуру 10 предметов в комнате, и девять из них находятся в диапазоне от 20 до 25 градусов Цельсия , но духовка имеет температуру 175 ° C, медиана данных будет между 20 и 25 °. C, но средняя температура будет от 35,5 до 40 ° C. В этом случае медиана лучше отражает температуру объекта, отобранного случайным образом (но не температуру в комнате), чем среднее значение; наивная интерпретация среднего как «типичный образец», эквивалент медианы, неверна. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат к другой совокупности, чем остальная частьнабор образцов .

Оценщики, способные справляться с выбросами, считаются надежными: медиана является надежной статистикой центральной тенденции , а среднее - нет. [4] Однако среднее значение обычно является более точной оценкой. [5]

Возникновение и причины [ править ]

Относительные вероятности в нормальном распределении

В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего вдвое или более на стандартное отклонение , а 1 из 370 будет отклоняться в три раза стандартное отклонение. [6] В выборке из 1000 наблюдений наличие до пяти наблюдений, отклоняющихся от среднего значения более чем на три раза стандартного отклонения, находится в пределах ожидаемого диапазона, меньше чем в два раза ожидаемого числа и, следовательно, в пределах 1 стандартное отклонение ожидаемого числа - см. распределение Пуассона- и не указывает на аномалию. Однако, если размер выборки составляет всего 100, только три таких выброса уже вызывают беспокойство, что более чем в 11 раз превышает ожидаемое число.

В общем, если характер распределения населения , как известно априори , то можно проверить , если количество выбросов отклоняются значительно от того, что можно ожидать: для данного среза (так образцы выходят за отсечкой с вероятностью р ) от а При заданном распределении количество выбросов будет следовать биномиальному распределению с параметром p , которое, как правило, может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с отсечкой 3 стандартных отклонения от среднего, p составляет примерно 0,3%, и, таким образом, для 1000 испытаний можно приблизить количество выборок, отклонение которых превышает 3 сигма, распределением Пуассона с λ = 3.

Причины [ править ]

Выбросы могут иметь множество аномальных причин. Физическое устройство для проведения измерений могло иметь временную неисправность. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошенничества, человеческой ошибки, ошибки прибора или просто в результате естественных отклонений в популяциях. Образец мог быть загрязнен элементами, не относящимися к исследуемой популяции. В качестве альтернативы, выброс может быть результатом ошибки в предполагаемой теории, требующей дальнейшего исследования исследователем. Кроме того, патологическое появление выбросов определенной формы появляется в различных наборах данных, указывая на то, что причинный механизм для данных может отличаться в крайних точках ( эффект Кинга ).

Определения и обнаружение [ править ]

Не существует строгого математического определения того, что является выбросом; Определение того, является ли наблюдение выбросом, в конечном итоге является субъективным делом. [7] Существуют различные методы обнаружения выбросов. [8] [9] [10] [11] Некоторые из них являются графическими, например, графики нормальной вероятности . Другие основаны на моделях. Коробчатые делянки - это гибрид.

Методы, основанные на моделях, которые обычно используются для идентификации, предполагают, что данные взяты из нормального распределения, и идентифицируют наблюдения, которые считаются «маловероятными» на основе среднего значения и стандартного отклонения:

  • Критерий Шовене
  • Тест Граббса на выбросы
  • Q- тест Диксона
  • ASTM E178 Стандартная практика работы с внешними наблюдениями
  • Расстояние Махаланобиса и плечо часто используются для обнаружения выбросов, особенно при разработке моделей линейной регрессии.
  • Методы, основанные на подпространстве и корреляции для многомерных числовых данных [11]

Критерий Пирса [ править ]

Предлагается определить в серии наблюдений предел погрешности, за пределами которого все наблюдения, содержащие такую ​​большую ошибку, могут быть отклонены, при условии, что таких наблюдений столько же . Принцип, на котором предлагается решить эту проблему, состоит в том, что предлагаемые наблюдения должны быть отклонены, когда вероятность системы ошибок, полученная путем их сохранения, меньше, чем вероятность системы ошибок, полученная путем их отклонения, умноженная на вероятность делать так много и не более аномальных наблюдений. (Цитируется в редакционной заметке на странице 516 Пирсу (издание 1982 г.) из A Manual of Astronomy 2: 558 Шовене.) [12] [13] [14] [15]

Заборы Тьюки [ править ]

Другие методы отмечают наблюдения, основанные на таких показателях, как межквартильный размах . Например, если и являются нижним и верхним квартилями соответственно, то можно определить выброс как любое наблюдение за пределами диапазона:

для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, где указывает «выброс», а данные - «далеко за пределами». [16]

При обнаружении аномалий [ править ]

В различных областях, таких как, помимо прочего, статистика , обработка сигналов , финансы , эконометрика , производство , создание сетей и интеллектуальный анализ данных , задача обнаружения аномалий может принимать другие подходы. Некоторые из них могут быть основаны на расстоянии [17] [18] и плотности, например, локальный фактор выбросов (LOF). [19] Некоторые подходы могут использовать расстояние до k-ближайших соседей, чтобы пометить наблюдения как выбросы или не выбросы. [20]

Модифицированный тест Томпсона Тау [ править ]

Модифицированный тест Томпсона Тау [ необходима ссылка ] - это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и обеспечивает статистически определенную зону отклонения; тем самым предоставляя объективный метод определения того, является ли точка данных выбросом. [ необходима цитата ] [21] Как это работает: сначала определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отклонения по формуле:

;

где - критическое значение из t- распределения Стьюдента с n -2 степенями свободы, n - размер выборки, а s - стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Рассчитайте . Если δ > Rejection Region, точка данных является выбросом. Если δ ≤ Rejection Region, точка данных не является выбросом.

Модифицированный тест Томпсона Тау используется для обнаружения одного выброса за раз (наибольшее значение δ удаляется, если оно является выбросом). Это означает, что если обнаруживается, что точка данных является выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останутся выбросы.

В некоторых работах также исследовались выбросы номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных жесткость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y - присвоенная метка класса, а x - значение входного атрибута для экземпляра в обучающем наборе. т ). [22] В идеале твердость экземпляра должна быть рассчитана путем суммирования по набору всех возможных гипотез H :

На практике эта формулировка неосуществима, поскольку H потенциально бесконечно, а вычисления для многих алгоритмов неизвестны. Таким образом, твердость экземпляра можно приблизительно оценить с помощью разнообразного подмножества :

где - гипотеза, вызванная алгоритмом обучения, обученным на обучающей выборке t с гиперпараметрами . Жесткость экземпляра обеспечивает непрерывное значение для определения того, является ли экземпляр выбросом.

Работа с выбросами [ править ]

Выбор того, как бороться с выбросом, должен зависеть от причины. Некоторые оценщики очень чувствительны к выбросам, особенно к оценке ковариационных матриц .

Хранение [ править ]

Даже когда модель нормального распределения подходит для анализируемых данных, выбросы ожидаются для больших размеров выборки и не должны автоматически отбрасываться, если это так. Приложение должно использовать алгоритм классификации, устойчивый к выбросам, для моделирования данных с естественными выбросами.

Исключение [ править ]

Удаление резко отклоняющихся данных - спорная практика, которую не одобряют многие ученые и преподаватели; Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают практику более обоснованной с научной или методологической точки зрения, особенно в небольших наборах или в тех случаях, когда нельзя предположить нормальное распределение. Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны лежащая в основе модель измеряемого процесса и обычное распределение ошибок измерения. Выбросы, возникающие из-за ошибки показаний прибора, можно исключить, но желательно, чтобы показания были по крайней мере проверены.

Два общих подхода к исключению выбросов - это усечение (или усечение ) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозревающими» данными. [23] Исключение также может быть следствием процесса измерения, например, когда эксперимент не может полностью измерить такие экстремальные значения, что приводит к цензуре данных. [24]

В задачах регрессии альтернативный подход может заключаться в исключении только тех точек, которые демонстрируют большую степень влияния на оцененные коэффициенты, с использованием такой меры, как расстояние Кука . [25]

Если точка данных (или точки) исключена из анализа данных , это должно быть четко указано в любом последующем отчете.

Ненормальные распределения [ править ]

Следует учитывать возможность того, что основное распределение данных не является приблизительно нормальным и имеет « толстые хвосты ». Так , например, при отборе проб из распределения Коши , [26] , что образец дисперсии возрастает с увеличением размера выборки, выборочное среднее не сходится по мере увеличения размера выборки, и выбросы , как ожидается , при гораздо больших скоростях , чем для нормального распределения. Даже небольшая разница в толщине хвостов может иметь большое значение в ожидаемом количестве экстремальных значений.

Неопределенность принадлежности к множеству [ править ]

Подход к набору принадлежности предполагает, что неопределенность, соответствующая i- му измерению неизвестного случайного вектора x , представлена ​​набором X i (вместо функции плотности вероятности). Если выбросов нет, x должен принадлежать пересечению всех X i . Когда возникают выбросы, это пересечение может быть пустым, и мы должны ослабить небольшое количество множеств X i (как можно меньшее), чтобы избежать любой несогласованности. [27] Это может быть сделано с помощью понятия д - расслаблены пересечения . Как показано на рисунке, q-релаксированное пересечение соответствует множеству всех x, которые принадлежат всем множествам, кроме q из них. Можно заподозрить, что множества X i, которые не пересекают пересечение с q- ослаблением, являются выбросами.

Рис. 5. q -релаксированное пересечение 6 множеств для q = 2 (красный), q = 3 (зеленый), q = 4 (синий), q = 5 (желтый).

Альтернативные модели [ править ]

В случаях, когда причина выбросов известна, можно включить этот эффект в структуру модели, например, используя иерархическую байесовскую модель или смешанную модель . [28] [29]

См. Также [ править ]

  • Аномалия (естественные науки)
  • Квартет анскомба
  • Преобразование данных (статистика)
  • Теория экстремальных ценностей
  • Влиятельное наблюдение
  • Консенсус случайной выборки
  • Надежная регрессия
  • Студентизованный остаток
  • Winsorizing

Ссылки [ править ]

  1. ^ Grubbs, ИП (февраль 1969). «Порядок обнаружения в выборках выбросов». Технометрика . 11 (1): 1-21. DOI : 10.1080 / 00401706.1969.10490657 . Экстрактивное наблюдение или «выброс» - это наблюдение, которое заметно отличается от других членов выборки, в которой оно встречается.
  2. ^ Maddala, GS (1992). «Выбросы» . Введение в эконометрику (2-е изд.). Нью-Йорк: Макмиллан. С.  89 . ISBN 978-0-02-374545-4. Выброс - это наблюдение, которое далеко от остальных наблюдений.
  3. ^ Граббс 1969 , стр. 1, где говорится: «Особое наблюдение может быть просто крайним проявлением случайной изменчивости, присущей данным. ... С другой стороны, выпадающее наблюдение может быть результатом грубого отклонения от предписанной экспериментальной процедуры или ошибки в расчетах или регистрации. числовое значение ".
  4. ^ Рипли, Брайан Д. 2004. Надежная статистика, заархивированная 2012-10-21 на Wayback Machine.
  5. ^ Чандан Мукерджи, Ховард Уайт, Марк Вуйтс, 1998, "Эконометрика и анализ данных для развивающихся стран, издание 1" [1]
  6. ^ Руан, Да; Чен, Гоцин; Керр, Этьен (2005). Уэтс, Г. (ред.). Интеллектуальный анализ данных: методы и приложения . Исследования в области вычислительного интеллекта Vol. 5. Спрингер. п. 318 . ISBN 978-3-540-26256-5.
  7. ^ Зимек, Артур; Фильцмозер, Питер (2018). «Туда и обратно: обнаружение выбросов между алгоритмами статистического анализа и интеллектуального анализа данных» (PDF) . Междисциплинарные обзоры Wiley: интеллектуальный анализ данных и открытие знаний . 8 (6): e1280. DOI : 10.1002 / widm.1280 . ISSN 1942-4787 .  
  8. ^ Rousseeuw, P ; Лерой, А. (1996), Надежная регрессия и обнаружение выбросов (3-е изд.), John Wiley & Sons
  9. ^ Ходж, Виктория Дж .; Остин, Джим (2004), "Обзор Outlier обнаружения Методологии", Искусственный интеллект Обзор , 22 (2): 85-126, CiteSeerX 10.1.1.109.1943 , DOI : 10,1023 / B: AIRE.0000045502.10941.a9 , S2CID 3330313  
  10. ^ Барнетт, Вик; Льюис, Тоби (1994) [1978], выбросы в статистических данных (3-е изд.), Wiley, ISBN 978-0-471-93094-5
  11. ^ а б Зимек, А .; Schubert, E .; Кригель, Х.-П. (2012). «Обзор неконтролируемого обнаружения выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. DOI : 10.1002 / sam.11161 .
  12. ^ Бенджамин Пирс , «Критерий отклонения сомнительных наблюдений» , Astronomical Journal II 45 (1852 г.) и исправления к исходной статье .
  13. ^ Пирс, Бенджамин (май 1877 - май 1878). «По критерию Пирса». Труды Американской академии искусств и наук . 13 : 348–351. DOI : 10.2307 / 25138498 . JSTOR 25138498 . 
  14. ^ Пирс, Чарльз Сандерс (1873) [1870]. «Приложение №21. К теории ошибок наблюдения». Отчет суперинтенданта береговой службы США, показывающий ход исследования в течение 1870 года : 200–224.. NOAA PDF Eprint (см. Отчет на стр. 200, PDF-файлы на стр. 215).
  15. ^ Пирс, Чарльз Сандерс (1986) [1982]. «К теории ошибок наблюдения». В Kloesel, Кристиан Дж. У .; и другие. (ред.). Сочинения Чарльза С. Пирса: хронологическое издание . Том 3, 1872–1878 гг. Блумингтон, Индиана: Издательство Индианского университета. С.  140–160 . ISBN 978-0-253-37201-7. - Приложение 21, согласно редакции на странице 515
  16. ^ Тьюки, Джон W (1977). Исследовательский анализ данных . Эддисон-Уэсли. ISBN 978-0-201-07616-5. OCLC  3058187 .
  17. ^ Knorr, EM; Ng, RT; Тукаков, В. (2000). «Выбросы на основе расстояния: алгоритмы и приложения». Журнал VLDB Международный журнал по очень большим базам данных . 8 (3–4): 237. CiteSeerX 10.1.1.43.1842 . DOI : 10.1007 / s007780050006 . S2CID 11707259 .  
  18. ^ Ramaswamy, S .; Растоги, Р .; Шим, К. (2000). Эффективные алгоритмы извлечения выбросов из больших наборов данных . Материалы международной конференции ACM SIGMOD 2000 г. по управлению данными - SIGMOD '00. п. 427. DOI : 10,1145 / 342009,335437 . ISBN 1581132174.
  19. ^ Бройниг, ММ; Кригель, Х.-П. ; Ng, RT; Сандер, Дж. (2000). LOF: Определение локальных выбросов на основе плотности (PDF) . Материалы Международной конференции ACM SIGMOD 2000 г. по управлению данными . SIGMOD . С. 93–104. DOI : 10.1145 / 335191.335388 . ISBN  1-58113-217-4.
  20. ^ Шуберт, E .; Зимек, А .; Кригель, Х. -П. (2012). «Обнаружение локальных выбросов пересмотрено: обобщенное представление о местности с приложениями для пространственного, видео и сетевого обнаружения выбросов». Интеллектуальный анализ данных и обнаружение знаний . 28 : 190–237. DOI : 10.1007 / s10618-012-0300-Z . S2CID 19036098 . 
  21. ^ Томпсон Р. (1985). « Примечание об ограниченной оценке максимального правдоподобия с альтернативной моделью выброса ». Журнал Королевского статистического общества. Серия B (Методологическая), Vol. 47, No. 1, с. 53-55
  22. ^ Смит, MR; Мартинес, Т .; Жиро-Кэрриер, К. (2014). « Анализ сложности данных на уровне экземпляра ». Машинное обучение, 95 (2): 225-256.
  23. ^ Wike, Эдвард Л. (2006). Анализ данных: статистический учебник для студентов-психологов . С. 24–25. ISBN 9780202365350.
  24. ^ Диксон, WJ (июнь 1960). «Упрощенная оценка от цензурированных нормальных выборок» . Анналы математической статистики . 31 (2): 385–391. DOI : 10.1214 / АОМ / 1177705900 .
  25. ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика (Американская статистическая ассоциация) 19 (1): 15–18.
  26. ^ Weisstein, Эрик В. Коши Распределение. Из MathWorld - веб-ресурса Wolfram
  27. ^ Jaulin, L. (2010). «Вероятностный подход к множеству членства для надежной регрессии» (PDF) . Журнал статистической теории и практики . 4 : 155–167. DOI : 10.1080 / 15598608.2010.10411978 . S2CID 16500768 .  
  28. ^ Робертс, С. и Тарассенко, Л .: 1995, Сеть распределения вероятностных ресурсов для обнаружения новинок. Нейронные вычисления 6, 270–284.
  29. Перейти ↑ Bishop, CM (август 1994). «Обнаружение новинок и проверка нейронной сети». IEE Proceedings - Vision, Image and Signal Processing . 141 (4): 217–222. DOI : 10.1049 / IP-Vis: 19941330 .

Внешние ссылки [ править ]

  • Ренце, Джон. «Выброс» . MathWorld .
  • Балакришнан, Н .; Чайлдс, А. (2001) [1994], "Outlier" , Encyclopedia of Mathematics , EMS Press
  • Тест Граббса, описанный в руководстве NIST