В статистике , останец является данные указывают , что существенно отличается от других наблюдений. [1] [2] Выброс может быть из-за изменчивости измерения или может указывать на экспериментальную ошибку; последние иногда исключаются из набора данных . [3] Выброс может вызвать серьезные проблемы при статистическом анализе.
Выбросы могут возникать случайно в любом распределении, но они часто указывают либо на ошибку измерения, либо на то, что популяция имеет распределение с тяжелыми хвостами . В первом случае их желают отбросить или использовать статистику, устойчивую к выбросам, тогда как во втором случае они указывают на то, что распределение имеет высокую асимметрию и что следует быть очень осторожными при использовании инструментов или интуиции, предполагающих нормальное распределение . Частой причиной выбросов является смесь двух распределений, которые могут быть двумя отдельными подгруппами, или могут указывать на «правильное испытание» или «ошибку измерения»; это моделируется смешанной моделью .
В большинстве более крупных выборок данных некоторые точки данных будут дальше от среднего значения выборки, чем это считается разумным. Это может быть из-за случайной систематической ошибки или недостатков в теории, которая породила предполагаемое семейство вероятностных распределений , или может быть, что некоторые наблюдения далеки от центра данных. Таким образом, выбросы могут указывать на ошибочные данные, ошибочные процедуры или области, в которых определенная теория может быть неверной. Однако в больших выборках следует ожидать небольшого количества выбросов (и не из-за каких-либо аномальных условий).
Выбросы, являющиеся наиболее экстремальными наблюдениями, могут включать в себя максимум или минимум выборки , или и то, и другое, в зависимости от того, являются ли они чрезвычайно высокими или низкими. Однако максимум и минимум выборки не всегда являются выбросами, потому что они могут быть не слишком далеки от других наблюдений.
Наивная интерпретация статистики, полученной из наборов данных, которые включают выбросы, может вводить в заблуждение. Например, если вычислить среднюю температуру 10 предметов в комнате, и девять из них находятся в диапазоне от 20 до 25 градусов Цельсия , но духовка имеет температуру 175 ° C, медиана данных будет между 20 и 25 °. C, но средняя температура будет от 35,5 до 40 ° C. В этом случае медиана лучше отражает температуру объекта, отобранного случайным образом (но не температуру в комнате), чем среднее значение; наивная интерпретация среднего как «типичный образец», эквивалент медианы, неверна. Как показано в этом случае, выбросы могут указывать на точки данных, которые принадлежат к другой совокупности, чем остальная частьнабор образцов .
Оценщики, способные справляться с выбросами, считаются надежными: медиана является надежной статистикой центральной тенденции , а среднее - нет. [4] Однако среднее значение обычно является более точной оценкой. [5]
Возникновение и причины [ править ]
В случае нормально распределенных данных правило трех сигм означает, что примерно 1 из 22 наблюдений будет отличаться от среднего вдвое или более на стандартное отклонение , а 1 из 370 будет отклоняться в три раза стандартное отклонение. [6] В выборке из 1000 наблюдений наличие до пяти наблюдений, отклоняющихся от среднего значения более чем на три раза стандартного отклонения, находится в пределах ожидаемого диапазона, меньше чем в два раза ожидаемого числа и, следовательно, в пределах 1 стандартное отклонение ожидаемого числа - см. распределение Пуассона- и не указывает на аномалию. Однако, если размер выборки составляет всего 100, только три таких выброса уже вызывают беспокойство, что более чем в 11 раз превышает ожидаемое число.
В общем, если характер распределения населения , как известно априори , то можно проверить , если количество выбросов отклоняются значительно от того, что можно ожидать: для данного среза (так образцы выходят за отсечкой с вероятностью р ) от а При заданном распределении количество выбросов будет следовать биномиальному распределению с параметром p , которое, как правило, может быть хорошо аппроксимировано распределением Пуассона с λ = pn . Таким образом, если взять нормальное распределение с отсечкой 3 стандартных отклонения от среднего, p составляет примерно 0,3%, и, таким образом, для 1000 испытаний можно приблизить количество выборок, отклонение которых превышает 3 сигма, распределением Пуассона с λ = 3.
Причины [ править ]
Выбросы могут иметь множество аномальных причин. Физическое устройство для проведения измерений могло иметь временную неисправность. Возможно, произошла ошибка при передаче или транскрипции данных. Выбросы возникают из-за изменений в поведении системы, мошенничества, человеческой ошибки, ошибки прибора или просто в результате естественных отклонений в популяциях. Образец мог быть загрязнен элементами, не относящимися к исследуемой популяции. В качестве альтернативы, выброс может быть результатом ошибки в предполагаемой теории, требующей дальнейшего исследования исследователем. Кроме того, патологическое появление выбросов определенной формы появляется в различных наборах данных, указывая на то, что причинный механизм для данных может отличаться в крайних точках ( эффект Кинга ).
Определения и обнаружение [ править ]
Не существует строгого математического определения того, что является выбросом; Определение того, является ли наблюдение выбросом, в конечном итоге является субъективным делом. [7] Существуют различные методы обнаружения выбросов. [8] [9] [10] [11] Некоторые из них являются графическими, например, графики нормальной вероятности . Другие основаны на моделях. Коробчатые делянки - это гибрид.
Методы, основанные на моделях, которые обычно используются для идентификации, предполагают, что данные взяты из нормального распределения, и идентифицируют наблюдения, которые считаются «маловероятными» на основе среднего значения и стандартного отклонения:
- Критерий Шовене
- Тест Граббса на выбросы
- Q- тест Диксона
- ASTM E178 Стандартная практика работы с внешними наблюдениями
- Расстояние Махаланобиса и плечо часто используются для обнаружения выбросов, особенно при разработке моделей линейной регрессии.
- Методы, основанные на подпространстве и корреляции для многомерных числовых данных [11]
Критерий Пирса [ править ]
Предлагается определить в серии наблюдений предел погрешности, за пределами которого все наблюдения, содержащие такую большую ошибку, могут быть отклонены, при условии, что таких наблюдений столько же . Принцип, на котором предлагается решить эту проблему, состоит в том, что предлагаемые наблюдения должны быть отклонены, когда вероятность системы ошибок, полученная путем их сохранения, меньше, чем вероятность системы ошибок, полученная путем их отклонения, умноженная на вероятность делать так много и не более аномальных наблюдений. (Цитируется в редакционной заметке на странице 516 Пирсу (издание 1982 г.) из A Manual of Astronomy 2: 558 Шовене.) [12] [13] [14] [15]
Заборы Тьюки [ править ]
Другие методы отмечают наблюдения, основанные на таких показателях, как межквартильный размах . Например, если и являются нижним и верхним квартилями соответственно, то можно определить выброс как любое наблюдение за пределами диапазона:
для некоторой неотрицательной константы . Джон Тьюки предложил этот тест, где указывает «выброс», а данные - «далеко за пределами». [16]
При обнаружении аномалий [ править ]
В различных областях, таких как, помимо прочего, статистика , обработка сигналов , финансы , эконометрика , производство , создание сетей и интеллектуальный анализ данных , задача обнаружения аномалий может принимать другие подходы. Некоторые из них могут быть основаны на расстоянии [17] [18] и плотности, например, локальный фактор выбросов (LOF). [19] Некоторые подходы могут использовать расстояние до k-ближайших соседей, чтобы пометить наблюдения как выбросы или не выбросы. [20]
Модифицированный тест Томпсона Тау [ править ]
Было предложено объединить этот раздел с распределением тау . ( Обсудить ) Предлагается с октября 2020 года. |
Модифицированный тест Томпсона Тау [ необходима ссылка ] - это метод, используемый для определения наличия выброса в наборе данных. Сила этого метода заключается в том, что он учитывает стандартное отклонение набора данных, среднее значение и обеспечивает статистически определенную зону отклонения; тем самым предоставляя объективный метод определения того, является ли точка данных выбросом. [ необходима цитата ] [21] Как это работает: сначала определяется среднее значение набора данных. Затем определяется абсолютное отклонение между каждой точкой данных и средним значением. В-третьих, определяется область отклонения по формуле:
- ;
где - критическое значение из t- распределения Стьюдента с n -2 степенями свободы, n - размер выборки, а s - стандартное отклонение выборки. Чтобы определить, является ли значение выбросом: Рассчитайте . Если δ > Rejection Region, точка данных является выбросом. Если δ ≤ Rejection Region, точка данных не является выбросом.
Модифицированный тест Томпсона Тау используется для обнаружения одного выброса за раз (наибольшее значение δ удаляется, если оно является выбросом). Это означает, что если обнаруживается, что точка данных является выбросом, она удаляется из набора данных, и тест применяется снова с новым средним значением и областью отклонения. Этот процесс продолжается до тех пор, пока в наборе данных не останутся выбросы.
В некоторых работах также исследовались выбросы номинальных (или категориальных) данных. В контексте набора примеров (или экземпляров) в наборе данных жесткость экземпляра измеряет вероятность того, что экземпляр будет неправильно классифицирован ( где y - присвоенная метка класса, а x - значение входного атрибута для экземпляра в обучающем наборе. т ). [22] В идеале твердость экземпляра должна быть рассчитана путем суммирования по набору всех возможных гипотез H :
На практике эта формулировка неосуществима, поскольку H потенциально бесконечно, а вычисления для многих алгоритмов неизвестны. Таким образом, твердость экземпляра можно приблизительно оценить с помощью разнообразного подмножества :
где - гипотеза, вызванная алгоритмом обучения, обученным на обучающей выборке t с гиперпараметрами . Жесткость экземпляра обеспечивает непрерывное значение для определения того, является ли экземпляр выбросом.
Работа с выбросами [ править ]
Выбор того, как бороться с выбросом, должен зависеть от причины. Некоторые оценщики очень чувствительны к выбросам, особенно к оценке ковариационных матриц .
Хранение [ править ]
Даже когда модель нормального распределения подходит для анализируемых данных, выбросы ожидаются для больших размеров выборки и не должны автоматически отбрасываться, если это так. Приложение должно использовать алгоритм классификации, устойчивый к выбросам, для моделирования данных с естественными выбросами.
Исключение [ править ]
Удаление резко отклоняющихся данных - спорная практика, которую не одобряют многие ученые и преподаватели; Хотя математические критерии обеспечивают объективный и количественный метод отклонения данных, они не делают практику более обоснованной с научной или методологической точки зрения, особенно в небольших наборах или в тех случаях, когда нельзя предположить нормальное распределение. Отклонение выбросов более приемлемо в тех областях практики, где достоверно известны лежащая в основе модель измеряемого процесса и обычное распределение ошибок измерения. Выбросы, возникающие из-за ошибки показаний прибора, можно исключить, но желательно, чтобы показания были по крайней мере проверены.
Два общих подхода к исключению выбросов - это усечение (или усечение ) и Winsorising . Обрезка отбрасывает выбросы, тогда как Winsorising заменяет выбросы ближайшими «неподозревающими» данными. [23] Исключение также может быть следствием процесса измерения, например, когда эксперимент не может полностью измерить такие экстремальные значения, что приводит к цензуре данных. [24]
В задачах регрессии альтернативный подход может заключаться в исключении только тех точек, которые демонстрируют большую степень влияния на оцененные коэффициенты, с использованием такой меры, как расстояние Кука . [25]
Если точка данных (или точки) исключена из анализа данных , это должно быть четко указано в любом последующем отчете.
Ненормальные распределения [ править ]
Следует учитывать возможность того, что основное распределение данных не является приблизительно нормальным и имеет « толстые хвосты ». Так , например, при отборе проб из распределения Коши , [26] , что образец дисперсии возрастает с увеличением размера выборки, выборочное среднее не сходится по мере увеличения размера выборки, и выбросы , как ожидается , при гораздо больших скоростях , чем для нормального распределения. Даже небольшая разница в толщине хвостов может иметь большое значение в ожидаемом количестве экстремальных значений.
Неопределенность принадлежности к множеству [ править ]
Подход к набору принадлежности предполагает, что неопределенность, соответствующая i- му измерению неизвестного случайного вектора x , представлена набором X i (вместо функции плотности вероятности). Если выбросов нет, x должен принадлежать пересечению всех X i . Когда возникают выбросы, это пересечение может быть пустым, и мы должны ослабить небольшое количество множеств X i (как можно меньшее), чтобы избежать любой несогласованности. [27] Это может быть сделано с помощью понятия д - расслаблены пересечения . Как показано на рисунке, q-релаксированное пересечение соответствует множеству всех x, которые принадлежат всем множествам, кроме q из них. Можно заподозрить, что множества X i, которые не пересекают пересечение с q- ослаблением, являются выбросами.
Альтернативные модели [ править ]
В случаях, когда причина выбросов известна, можно включить этот эффект в структуру модели, например, используя иерархическую байесовскую модель или смешанную модель . [28] [29]
См. Также [ править ]
- Аномалия (естественные науки)
- Квартет анскомба
- Преобразование данных (статистика)
- Теория экстремальных ценностей
- Влиятельное наблюдение
- Консенсус случайной выборки
- Надежная регрессия
- Студентизованный остаток
- Winsorizing
Ссылки [ править ]
- ^ Grubbs, ИП (февраль 1969). «Порядок обнаружения в выборках выбросов». Технометрика . 11 (1): 1-21. DOI : 10.1080 / 00401706.1969.10490657 .
Экстрактивное наблюдение или «выброс» - это наблюдение, которое заметно отличается от других членов выборки, в которой оно встречается.
- ^ Maddala, GS (1992). «Выбросы» . Введение в эконометрику (2-е изд.). Нью-Йорк: Макмиллан. С. 89 . ISBN 978-0-02-374545-4.
Выброс - это наблюдение, которое далеко от остальных наблюдений.
- ^ Граббс 1969 , стр. 1, где говорится: «Особое наблюдение может быть просто крайним проявлением случайной изменчивости, присущей данным. ... С другой стороны, выпадающее наблюдение может быть результатом грубого отклонения от предписанной экспериментальной процедуры или ошибки в расчетах или регистрации. числовое значение ".
- ^ Рипли, Брайан Д. 2004. Надежная статистика, заархивированная 2012-10-21 на Wayback Machine.
- ^ Чандан Мукерджи, Ховард Уайт, Марк Вуйтс, 1998, "Эконометрика и анализ данных для развивающихся стран, издание 1" [1]
- ^ Руан, Да; Чен, Гоцин; Керр, Этьен (2005). Уэтс, Г. (ред.). Интеллектуальный анализ данных: методы и приложения . Исследования в области вычислительного интеллекта Vol. 5. Спрингер. п. 318 . ISBN 978-3-540-26256-5.
- ^ Зимек, Артур; Фильцмозер, Питер (2018). «Туда и обратно: обнаружение выбросов между алгоритмами статистического анализа и интеллектуального анализа данных» (PDF) . Междисциплинарные обзоры Wiley: интеллектуальный анализ данных и открытие знаний . 8 (6): e1280. DOI : 10.1002 / widm.1280 . ISSN 1942-4787 .
- ^ Rousseeuw, P ; Лерой, А. (1996), Надежная регрессия и обнаружение выбросов (3-е изд.), John Wiley & Sons
- ^ Ходж, Виктория Дж .; Остин, Джим (2004), "Обзор Outlier обнаружения Методологии", Искусственный интеллект Обзор , 22 (2): 85-126, CiteSeerX 10.1.1.109.1943 , DOI : 10,1023 / B: AIRE.0000045502.10941.a9 , S2CID 3330313
- ^ Барнетт, Вик; Льюис, Тоби (1994) [1978], выбросы в статистических данных (3-е изд.), Wiley, ISBN 978-0-471-93094-5
- ^ а б Зимек, А .; Schubert, E .; Кригель, Х.-П. (2012). «Обзор неконтролируемого обнаружения выбросов в многомерных числовых данных». Статистический анализ и интеллектуальный анализ данных . 5 (5): 363–387. DOI : 10.1002 / sam.11161 .
- ^ Бенджамин Пирс , «Критерий отклонения сомнительных наблюдений» , Astronomical Journal II 45 (1852 г.) и исправления к исходной статье .
- ^ Пирс, Бенджамин (май 1877 - май 1878). «По критерию Пирса». Труды Американской академии искусств и наук . 13 : 348–351. DOI : 10.2307 / 25138498 . JSTOR 25138498 .
- ^ Пирс, Чарльз Сандерс (1873) [1870]. «Приложение №21. К теории ошибок наблюдения». Отчет суперинтенданта береговой службы США, показывающий ход исследования в течение 1870 года : 200–224.. NOAA PDF Eprint (см. Отчет на стр. 200, PDF-файлы на стр. 215).
- ^ Пирс, Чарльз Сандерс (1986) [1982]. «К теории ошибок наблюдения». В Kloesel, Кристиан Дж. У .; и другие. (ред.). Сочинения Чарльза С. Пирса: хронологическое издание . Том 3, 1872–1878 гг. Блумингтон, Индиана: Издательство Индианского университета. С. 140–160 . ISBN 978-0-253-37201-7. - Приложение 21, согласно редакции на странице 515
- ^ Тьюки, Джон W (1977). Исследовательский анализ данных . Эддисон-Уэсли. ISBN 978-0-201-07616-5. OCLC 3058187 .
- ^ Knorr, EM; Ng, RT; Тукаков, В. (2000). «Выбросы на основе расстояния: алгоритмы и приложения». Журнал VLDB Международный журнал по очень большим базам данных . 8 (3–4): 237. CiteSeerX 10.1.1.43.1842 . DOI : 10.1007 / s007780050006 . S2CID 11707259 .
- ^ Ramaswamy, S .; Растоги, Р .; Шим, К. (2000). Эффективные алгоритмы извлечения выбросов из больших наборов данных . Материалы международной конференции ACM SIGMOD 2000 г. по управлению данными - SIGMOD '00. п. 427. DOI : 10,1145 / 342009,335437 . ISBN 1581132174.
- ^ Бройниг, ММ; Кригель, Х.-П. ; Ng, RT; Сандер, Дж. (2000). LOF: Определение локальных выбросов на основе плотности (PDF) . Материалы Международной конференции ACM SIGMOD 2000 г. по управлению данными . SIGMOD . С. 93–104. DOI : 10.1145 / 335191.335388 . ISBN 1-58113-217-4.
- ^ Шуберт, E .; Зимек, А .; Кригель, Х. -П. (2012). «Обнаружение локальных выбросов пересмотрено: обобщенное представление о местности с приложениями для пространственного, видео и сетевого обнаружения выбросов». Интеллектуальный анализ данных и обнаружение знаний . 28 : 190–237. DOI : 10.1007 / s10618-012-0300-Z . S2CID 19036098 .
- ^ Томпсон Р. (1985). « Примечание об ограниченной оценке максимального правдоподобия с альтернативной моделью выброса ». Журнал Королевского статистического общества. Серия B (Методологическая), Vol. 47, No. 1, с. 53-55
- ^ Смит, MR; Мартинес, Т .; Жиро-Кэрриер, К. (2014). « Анализ сложности данных на уровне экземпляра ». Машинное обучение, 95 (2): 225-256.
- ^ Wike, Эдвард Л. (2006). Анализ данных: статистический учебник для студентов-психологов . С. 24–25. ISBN 9780202365350.
- ^ Диксон, WJ (июнь 1960). «Упрощенная оценка от цензурированных нормальных выборок» . Анналы математической статистики . 31 (2): 385–391. DOI : 10.1214 / АОМ / 1177705900 .
- ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика (Американская статистическая ассоциация) 19 (1): 15–18.
- ^ Weisstein, Эрик В. Коши Распределение. Из MathWorld - веб-ресурса Wolfram
- ^ Jaulin, L. (2010). «Вероятностный подход к множеству членства для надежной регрессии» (PDF) . Журнал статистической теории и практики . 4 : 155–167. DOI : 10.1080 / 15598608.2010.10411978 . S2CID 16500768 .
- ^ Робертс, С. и Тарассенко, Л .: 1995, Сеть распределения вероятностных ресурсов для обнаружения новинок. Нейронные вычисления 6, 270–284.
- Перейти ↑ Bishop, CM (август 1994). «Обнаружение новинок и проверка нейронной сети». IEE Proceedings - Vision, Image and Signal Processing . 141 (4): 217–222. DOI : 10.1049 / IP-Vis: 19941330 .
Внешние ссылки [ править ]
Викискладе есть медиафайлы по теме выбросов . |
- Ренце, Джон. «Выброс» . MathWorld .
- Балакришнан, Н .; Чайлдс, А. (2001) [1994], "Outlier" , Encyclopedia of Mathematics , EMS Press
- Тест Граббса, описанный в руководстве NIST