В статистических данных , то тест Колмогорова-Смирнова ( тест KS или тест KS ) представляет собой непараметрический критерий равенства непрерывной (или прерывистыми, см раздел 2.2 ), одномерные распределения вероятностей , которые могут быть использованы для сравнения образца с эталонное распределение вероятностей (тест K – S для одной выборки) или для сравнения двух выборок (тест K – S для двух выборок). Он назван в честь Андрея Колмогорова и Николая Смирнова .
Статистика Колмогорова – Смирнова количественно определяет расстояние между эмпирической функцией распределения выборки и кумулятивной функцией распределения эталонного распределения или между эмпирическими функциями распределения двух выборок. Распределение нуля этой статистики вычисляются по нулевой гипотезе , что образец взят из эталонного распределения (в случае , если один-образце) или , что образцы взяты из того же распределения (в двух-образце случае). В случае одной выборки распределение, рассматриваемое при нулевой гипотезе, может быть непрерывным (см. Раздел 2 ), чисто дискретным или смешанным (см. Раздел 2.2 ). В случае двух выборок (см. Раздел 3 ) распределение, рассматриваемое при нулевой гипотезе, является непрерывным распределением, но в остальном не ограничено. Тем не менее, испытание на двух образцах также может быть выполнено в более общих условиях, которые учитывают неоднородность, неоднородность и зависимость между образцами. [1]
Двухвыборочный тест K – S является одним из наиболее полезных и общих непараметрических методов для сравнения двух выборок, поскольку он чувствителен к различиям как в расположении, так и в форме эмпирических кумулятивных функций распределения двух выборок.
Тест Колмогорова-Смирнова может быть изменен , чтобы служить в качестве благости пригонки теста. В частном случае проверки нормальности распределения выборки стандартизируются и сравниваются со стандартным нормальным распределением. Это эквивалентно установке среднего и дисперсии эталонного распределения, равных оценкам выборки, и известно, что их использование для определения конкретного эталонного распределения изменяет нулевое распределение тестовой статистики (см. Тест с оцененными параметрами ). Различные исследования показали, что даже в этой исправленной форме тест менее эффективен для проверки нормальности, чем тест Шапиро-Уилка или тест Андерсона-Дарлинга . [2] Однако у этих других тестов есть свои недостатки. Например, известно, что критерий Шапиро-Уилка не работает для образцов с множеством идентичных значений.
Статистика Колмогорова – Смирнова
Эмпирическая функция распределения Р п для п независимых и одинаково распределенных (IID) заказал наблюдения X я определяется как
где - индикаторная функция , равная 1, если и равняется 0 в противном случае.
Статистика Колмогорова – Смирнова для данной кумулятивной функции распределения F ( x ) равна
где sup x - верхняя грань множества расстояний. Интуитивно, статистика берет наибольшую абсолютную разницу между двумя функциями распределения по всем значениям x .
По теореме Гливенко – Кантелли , если выборка происходит из распределения F ( x ), то D n почти наверняка сходится к 0 в пределе, когдауходит в бесконечность. Колмогоров усилил этот результат, эффективно указав скорость этой сходимости (см. Распределение Колмогорова ). Теорема Донскера дает еще более сильный результат.
На практике статистика требует относительно большого количества точек данных (по сравнению с другими критериями согласия, такими как статистика теста Андерсона – Дарлинга ), чтобы правильно отклонить нулевую гипотезу.
Колмогоровское распределение
Распределение Колмогорова - это распределение случайной величины
где B ( t ) - броуновский мост . Интегральная функция распределения по K задается [3]
которая также может быть выражена тета-функцией Якоби . И форма тестовой статистики Колмогорова-Смирнова и его асимптотическое распределение при нулевой гипотезе были опубликованы А. Н. Колмогоров , [4] , а таблица распределения была опубликована Н. Смирнов . [5] Доступны рекуррентные соотношения для распределения тестовой статистики в конечных выборках. [4]
При нулевой гипотезе о том, что выборка происходит из гипотетического распределения F ( x ),
в распределении , где B ( t ) - броуновский мост . Если F непрерывно, то при нулевой гипотезесходится к распределению Колмогорова, которое не зависит от F . Этот результат может быть также известен как теорема Колмогорова.
Точность этого предела как приближение к точной cdf когда конечно не очень впечатляет: даже когда , соответствующая максимальная ошибка составляет около ; эта ошибка увеличивается до когда и к совершенно неприемлемому когда . Однако очень простой способ замены от
в аргументе тета-функции Якоби сводит эти ошибки к , , а также соответственно; такая точность обычно считается более чем достаточной для всех практических приложений. [6]
Благость-оф-приступе тест или тест Колмогорова-Смирнова может быть построена с использованием критических значений распределения Колмогорова. Этот тест асимптотически верен, когда. Он отвергает нулевую гипотезу на уровне если
где K α находится из
Асимптотическая мощность этого теста равна 1.
Быстрые и точные алгоритмы вычисления cdf или его дополнение для произвольных а также , доступны из:
- [7] и [8] для непрерывных нулевых распределений с кодом на C и Java можно найти в. [7]
- [9] для чисто дискретного, смешанного или непрерывного нулевого распределения, реализованного в пакете KSgeneral [10] проекта R для статистических вычислений , который для данной выборки также вычисляет статистику теста KS и ее p-значение. Альтернативная реализация C ++ доступна по адресу. [9]
Тест с расчетными параметрами
Если форма или параметры F ( x ) определяются из данных X i, критические значения, определенные таким образом, недействительны. В таких случаях может потребоваться Монте-Карло или другие методы, но для некоторых случаев подготовлены таблицы. Подробная информация о необходимых модификациях тестовой статистики и критических значений для нормального распределения и экспоненциального распределения была опубликована [11], а более поздние публикации также включают распределение Гамбеля . [12] Тест Лиллиэфорса представляет собой частный случай нормального распределения. Преобразование логарифма может помочь избежать случаев, когда данные теста Колмогорова не соответствуют предположению о том, что они получены из нормального распределения.
При использовании оценочных параметров возникает вопрос, какой метод оценки следует использовать. Обычно это метод максимального правдоподобия, но, например, для нормального распределения MLE имеет большую ошибку смещения сигмы. Использование подгонки с моментом или минимизация KS вместо этого имеет большое влияние на критические значения, а также некоторое влияние на мощность теста. Если нам нужно решить для данных Student-T с df = 2 с помощью теста KS, могут ли данные быть нормальными или нет, тогда оценка ML на основе H 0 (данные нормальные, поэтому использование стандартного отклонения для масштаба) даст много большее расстояние KS, чем посадка с минимальным KS. В этом случае мы должны отклонить H 0 , что часто имеет место с MLE, потому что стандартное отклонение выборки может быть очень большим для данных T-2, но с минимизацией KS мы можем получить слишком низкий KS, чтобы отклонить H 0 . В случае Стьюдента-T модифицированный тест KS с оценкой KS вместо MLE действительно немного ухудшает тест KS. Однако в других случаях такой модифицированный тест KS дает немного лучшую тестовую мощность.
Дискретное и смешанное нулевое распределение
В предположении, что неубывающая и непрерывная справа, со счетным (возможно, бесконечным) числом прыжков, статистика теста KS может быть выражена как:
Из правой непрерывности , следует, что а также а значит, распределение зависит от нулевого распределения , т.е. больше не является свободным от распределения, как в непрерывном случае. Поэтому был разработан быстрый и точный метод вычисления точного и асимптотического распределения когда чисто дискретный или смешанный, [9] реализован в C ++ и в пакете KSgeneral [10] на языке R . Функции disc_ks_test()
, mixed_ks_test()
и cont_ks_test()
вычисляют также тестовую статистику КС и р-значения для чисто дискретных, смешанных или непрерывных распределений нулевых и произвольных размеров выборки. Тест KS и его p-значения для дискретных нулевых распределений и малых размеров выборки также вычисляются в [13] как часть пакета dgof языка R. Основные статистические пакеты, среди которых SAS PROC NPAR1WAY
, [14] Stata ksmirnov
[15], реализуют тест KS в предположении, чтонепрерывно, что является более консервативным, если нулевое распределение на самом деле не непрерывно (см. [16] [17] [18] ).
Двухвыборочный критерий Колмогорова – Смирнова.
Тест Колмогорова – Смирнова также можно использовать для проверки того, различаются ли два лежащих в основе одномерных распределения вероятностей. В этом случае статистика Колмогорова – Смирнова равна
где а также - эмпирические функции распределения первой и второй выборки соответственно, а- функция супремума .
Для больших выборок нулевая гипотеза отклоняется на уровне если
Где а также - размеры первой и второй выборки соответственно. Значение приведена в таблице ниже для наиболее распространенных уровней
0,20 | 0,15 | 0,10 | 0,05 | 0,025 | 0,01 | 0,005 | 0,001 | |
1.073 | 1,138 | 1,224 | 1,358 | 1,48 | 1,628 | 1,731 | 1,949 |
и в целом [19] с помощью
так что условие читается
Здесь, опять же, чем больше размер выборки, тем чувствительнее минимальная граница: для данного соотношения размеров выборки (например, ) минимальная граница масштабируется в размере любого из образцов в соответствии с его обратным квадратным корнем.
Обратите внимание, что тест с двумя выборками проверяет, происходят ли две выборки данных из одного и того же распределения. Это не указывает, что это за общее распределение (например, нормальное оно или ненормальное). Опять же, были опубликованы таблицы критических значений. Недостатком теста Колмогорова – Смирнова является то, что он не очень эффективен, поскольку разработан так, чтобы быть чувствительным ко всем возможным типам различий между двумя функциями распределения. Некоторые утверждают [20] [21], что тест Куккони , первоначально предложенный для одновременного сравнения местоположения и масштаба, может быть намного более мощным, чем тест Колмогорова – Смирнова при сравнении двух функций распределения.
Установка доверительных интервалов для формы функции распределения
Хотя тест Колмогорова – Смирнова обычно используется для проверки того, является ли данное F ( x ) основным распределением вероятностей для F n ( x ), процедура может быть инвертирована, чтобы дать доверительные интервалы для самого F ( x ). Если выбрать критическое значение тестовой статистики D α такое, что P ( D n > D α ) = α , то полоса шириной ± D α вокруг F n ( x ) будет полностью содержать F ( x ) с вероятностью 1 - α .
Статистика Колмогорова – Смирнова более чем в одном измерении
Не содержащий распределения многомерный критерий согласия Колмогорова – Смирнова был предложен Justel, Peña и Zamar (1997). [22] В тесте используется статистика, построенная с использованием преобразования Розенблатта, и разработан алгоритм для ее вычисления в двумерном случае. Также представлен примерный тест, который можно легко вычислить в любом измерении.
Статистику критерия Колмогорова – Смирнова необходимо изменить, если аналогичный критерий будет применяться к многомерным данным . Это непросто, потому что максимальная разница между двумя совместными кумулятивными функциями распределения обычно не совпадает с максимальной разницей любой из дополнительных функций распределения. Таким образом, максимальная разница будет отличаться в зависимости от того, какой из или же или используется любое из двух других возможных расположений. Можно потребовать, чтобы результат используемого теста не зависел от того, какой выбор сделан.
Один из подходов к обобщению статистики Колмогорова – Смирнова на более высокие измерения, который отвечает вышеупомянутой проблеме, состоит в том, чтобы сравнить cdfs двух выборок со всеми возможными порядками и взять наибольший из набора результирующих статистик K – S. В д измерений, есть 2 г -1 , такие доки. Одна из таких вариаций принадлежит Пикоку [23] (см. Также Госсет [24] для трехмерной версии), а другая - Фазано и Франческини [25] (см. Сравнение и подробности вычислений у Лопеса и др.). [26] Критические значения для тестовой статистики могут быть получены путем моделирования, но зависят от структуры зависимости в совместном распределении.
В одном измерении статистика Колмогорова – Смирнова идентична так называемому звездному расхождению D, поэтому еще одно собственное расширение KS на более высокие измерения было бы просто использовать D также и для более высоких измерений. К сожалению, звездное расхождение трудно вычислить в больших размерах.
В 2021 году была открыта функциональная форма многомерной статистики теста KS, которая упростила задачу оценки вероятностей хвоста многомерной статистики теста KS, которая необходима для статистического теста. Для многомерного случая, если F i является i- м непрерывным маргиналом из распределения вероятностей с k переменными, то
поэтому предельное распределение не зависит от предельных распределений. [1]
Реализации
Тест Колмогорова-Смирнова (один или два выборочных теста проверяют равенство распределений) реализован во многих программах:
- В Mathematica есть KolmogorovSmirnovTest
- MATLAB имеет kstest в его панели инструментов статистики.
- Пакет R "KSgeneral" [10] вычисляет статистику теста KS и его p-значения при произвольном, возможно дискретном, смешанном или непрерывном нулевом распределении.
- Базовый пакет статистики R реализует тест как ks.test {stats} в своем пакете "stats".
- SAS реализует тест в своей процедуре PROC NPAR1WAY.
- В Python есть реализация этого теста, предоставленная SciPy [27] статистическими функциями (scipy.stats).
- SYSTAT (SPSS Inc., Чикаго, Иллинойс)
- В Java есть реализация этого теста, предоставленная Apache Commons [28]
- KNIME имеет узел, реализующий этот тест на основе вышеупомянутой реализации Java [29]
- Юлия Использование пакета HypothesisTests.jl , ExactOneSampleKSTest (x :: AbstractVector {<: Real}, d :: UnivariateDistribution) [30]
- StatsDirect (StatsDirect Ltd, Манчестер, Великобритания) реализует все распространенные варианты .
- Stata (Stata Corporation, College Station, TX) реализует тест в команде ksmirnov (тест равенства распределений Колмогорова – Смирнова). [31]
- PSPP реализует тест в своем KOLMOGOROV-SMIRNOV (или с помощью функции ярлыка KS .
- Пакет ресурсов реальной статистики для Excel запускает тест как KSCRIT и KSPROB [32]
С 2021 года эти программы не поддерживают многомерный тест.
Смотрите также
- Лепаж тест
- Тест Куккони
- Тест Койпера
- Тест Шапиро-Уилка
- Тест Андерсона – Дарлинга
- Тест Крамера – фон Мизеса
Рекомендации
- ^ a b Нааман, Майкл (2021 г.). «О жесткой константе в многомерном неравенстве Дворецкого-Кифера-Вулфовица» . Статистика и вероятностные письма . 173 : 1–8 - через Science Direct.
- ^ Стивенс, Массачусетс (1974). «Статистика соответствия EDF и некоторые сравнения». Журнал Американской статистической ассоциации . 69 (347): 730–737. DOI : 10.2307 / 2286009 . JSTOR 2286009 .
- ^ Marsaglia G, Цанг WW, Ван Дж (2003). «Оценка распределения Колмогорова» . Журнал статистического программного обеспечения . 8 (18): 1–4. DOI : 10,18637 / jss.v008.i18 .
- ^ а б Колмогоров А (1933). "Sulla Definition empirica di una legge di distribuzione". G. Ist. Ital. Аттуари . 4 : 83–91.
- ^ Смирнов Н. (1948). «Таблица для оценки согласия эмпирических распределений» . Анналы математической статистики . 19 (2): 279–281. DOI : 10.1214 / АОМ / 1177730256 .
- ^ Врбик, янв (2018). "Поправки по малой выборке к статистике критерия Колмогорова – Смирнова". Пионерский журнал теоретической и прикладной статистики . 15 (1-2): 15-23.
- ^ а б Simard R, L'Ecuyer P (2011). «Вычисление двустороннего распределения Колмогорова – Смирнова» . Журнал статистического программного обеспечения . 39 (11): 1–18. DOI : 10,18637 / jss.v039.i11 .
- ^ Москович А, Надлер Б (2017). «Быстрый расчет вероятностей пересечения границ для пуассоновских процессов». Статистика и вероятностные письма . 123 : 177–182. arXiv : 1503.04363 . DOI : 10.1016 / j.spl.2016.11.027 .
- ^ а б в Димитрова Д.С., Кайшев В.К., Тан С (2020). «Вычисление распределения Колмогорова-Смирнова, когда базовый cdf является чисто дискретным, смешанным или непрерывным» . Журнал статистического программного обеспечения . 95 (10): 1–42. DOI : 10,18637 / jss.v095.i10 .
- ^ а б в Димитрова, Димитрина; Кайшев Владимир; Тан, Сенрен. "KSgeneral: Вычисление P-значений теста KS для (Dis) непрерывного нулевого распределения" . cran.r-project.org/web/packages/KSgeneral/index.html .
- ^ Пирсон, ES; Хартли, HO, ред. (1972). Таблицы биометрики для статистиков . 2 . Издательство Кембриджского университета. С. 117–123, таблицы 54, 55. ISBN 978-0-521-06937-3.
- ^ Shorack, Galen R .; Веллнер, Джон А. (1986). Эмпирические процессы с приложениями к статистике . Вайли. п. 239. ISBN. 978-0471867258.
- ^ Арнольд, Тейлор Б.; Эмерсон, Джон В. (2011). «Непараметрические критерии согласия для дискретных нулевых распределений» (PDF) . R Journal . 3 (2): 34 \ [тире] 39. DOI : 10,32614 / т-2011-016 .
- ^ «Руководство пользователя SAS / STAT (R) 14.1» . support.sas.com . Проверено 14 апреля 2018 года .
- ^ «Тест равенства распределений ксмирнова - Колмогорова – Смирнова» (PDF) . stata.com . Проверено 14 апреля 2018 года .
- ^ Нётер Г.Е. (1963). «Заметка о статистике Колмогорова в дискретном случае». Метрика . 7 (1): 115–116. DOI : 10.1007 / bf02613966 .
- ^ Слактер MJ (1965). "Сравнение критериев согласия Пирсона и критерия согласия Колмогорова на предмет достоверности". Журнал Американской статистической ассоциации . 60 (311): 854–858. DOI : 10.2307 / 2283251 . JSTOR 2283251 .
- ^ Уолш Дж. Э. (1963). «Ограниченные вероятностные свойства Колмогорова – Смирнова и подобные статистики для дискретных данных». Летопись Института статистической математики . 15 (1): 153–158. DOI : 10.1007 / bf02865912 .
- ^ Ур. (15) в разделе 3.3.1 книги Knuth, DE, The Art of Computer Programming, Volume 2 (Seminumerical Algorithms), 3rd Edition, Addison Wesley, Reading Mass, 1998.
- ^ Мароцци, Марко (2009). «Некоторые замечания по тесту Куккони по шкале местоположения». Журнал непараметрической статистики . 21 (5): 629–647. DOI : 10.1080 / 10485250902952435 .
- ^ Мароцци, Марко (2013). «Непараметрические одновременные тесты для определения местоположения и масштабирования: сравнение нескольких методов». Коммуникации в статистике - моделирование и вычисления . 42 (6): 1298–1317. DOI : 10.1080 / 03610918.2012.665546 .
- ^ Justel, A .; Peña, D .; Замар, Р. (1997). «Многомерный критерий согласия Колмогорова – Смирнова». Статистика и вероятностные письма . 35 (3): 251–259. CiteSeerX 10.1.1.498.7631 . DOI : 10.1016 / S0167-7152 (97) 00020-5 .
- ^ Павлин Дж. А. (1983). «Двумерная проверка согласия в астрономии» . Ежемесячные уведомления Королевского астрономического общества . 202 (3): 615–627. Bibcode : 1983MNRAS.202..615P . DOI : 10.1093 / MNRAS / 202.3.615 .
- ^ Госсет Э. (1987). «Трехмерный расширенный тест Колмогорова-Смирнова как полезный инструмент в астрономии}». Астрономия и астрофизика . 188 (1): 258–264. Bibcode : 1987A&A ... 188..258G .
- ^ Фазано, Г., Франческини, А. (1987). «Многомерный вариант теста Колмогорова – Смирнова» . Ежемесячные уведомления Королевского астрономического общества . 225 : 155–170. Bibcode : 1987MNRAS.225..155F . DOI : 10.1093 / MNRAS / 225.1.155 . ISSN 0035-8711 .CS1 maint: использует параметр авторов ( ссылка )
- ^ Lopes, RHC, Reid, I., Hobson, PR (23–27 апреля 2007 г.). Двумерный тест Колмогорова – Смирнова (PDF) . XI Международный семинар по передовым вычислительным и аналитическим методам в физических исследованиях. Амстердам, Нидерланды.CS1 maint: использует параметр авторов ( ссылка )
- ^ "scipy.stats.kstest" . SciPy SciPy v0.14.0 Справочное руководство . Сообщество Scipy . Проверено 18 июня 2019 .
- ^ «КолмогоровСмирновТес» . Проверено 18 июня 2019 .
- ^ «Новые узлы статистики» . Проверено 25 июня 2020 .
- ^ https://juliastats.org/HypothesisTests.jl/stable/nonparametric/#Kolmogorov-Smirnov-test-1
- ^ «Тест равенства распределений ксмирнова - Колмогорова - Смирнова» (PDF) . Проверено 18 июня 2019 .
- ^ "Тест Колмогорова-Смирнова для проверки гипотезы нормальности" . Проверено 18 июня 2019 .
дальнейшее чтение
- Дэниел, Уэйн В. (1990). «Одновыборочная проба Колмогорова – Смирнова» . Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Kent. С. 319–330. ISBN 978-0-534-91976-4.
- Иди, WT; Д. Дрижард; ИП Джеймс; М. Роос; Б. Садуле (1971). Статистические методы экспериментальной физики . Амстердам: Северная Голландия. С. 269–271. ISBN 978-0-444-10117-4.
- Стюарт, Алан; Орд, Кейт; Арнольд, Стивен [Ф.] (1999). Классический вывод и линейная модель . Продвинутая теория статистики Кендалла. 2А (Шестое изд.). Лондон: Арнольд. С. 25.37–25.43. ISBN 978-0-340-66230-4. Руководство по ремонту 1687411 .
- Кордер, ГВт; Форман, Д.И. (2014). Непараметрическая статистика: пошаговый подход . Вайли. ISBN 978-1118840313.
- Стивенс, Массачусетс (1979). «Проверка соответствия логистического распределения на основе эмпирической функции распределения». Биометрика . 66 (3): 591–595. DOI : 10.1093 / Biomet / 66.3.591 .
Внешние ссылки
- «Тест Колмогорова – Смирнова» , Математическая энциклопедия , EMS Press , 2001 [1994]
- Краткое введение
- Объяснение теста KS
- Реализация односторонних и двусторонних тестов в JavaScript
- Онлайн калькулятор с тестом KS
- Код C ++ с открытым исходным кодом для вычисления распределения Колмогорова и выполнения теста KS
- Документ об оценке распределения Колмогорова ; содержит реализацию C. Это метод, используемый в Matlab .
- Статья о вычислении двустороннего распределения Колмогорова – Смирнова ; вычисление cdf статистики KS на C или Java.
- Paper powerlaw: пакет Python для анализа распределений с тяжелыми хвостами ; Джефф Олстотт, Эд Буллмор, Дитмар Пленц. Среди прочего, он также выполняет тест Колмогорова – Смирнова. Исходный код и установщики пакета powerlaw доступны на PyPi .