Тест Кокрана C


В статистике критерий Кокрана C , [1] названный в честь Уильяма Г. Кокрана , является односторонним тестом выброса дисперсии верхнего предела . Критерий C используется, чтобы решить, является ли отдельная оценка дисперсии (или стандартного отклонения ) значительно большей , чем группа дисперсий (или стандартных отклонений), с которыми единая оценка должна быть сопоставима. Тест C обсуждается во многих учебниках [2] [3] [4] и рекомендован IUPAC [5] и ISO . [6] Критерий Кокрана С не следует путать с критерием Кокрана Q , который применяется к анализу двусторонних рандомизированных блоков .

Тест C предполагает сбалансированный дизайн, т. е. рассматриваемый полный набор данных должен состоять из отдельных рядов данных одинакового размера. Тест C также предполагает, что каждый отдельный ряд данных имеет нормальное распределение . Хотя в первую очередь тест на выбросы, тест C также используется в качестве простой альтернативы обычным тестам гомоскедастичности , таким как тест Бартлетта, тест Левена и тест Брауна-Форсайта, для проверки набора статистических данных на однородность дисперсий . Еще более простой способ проверки гомоскедастичности обеспечивается тестом Хартли F max , [3]но критерий F max Хартли имеет тот недостаток, что он учитывает только минимум и максимум диапазона дисперсии, в то время как критерий C учитывает все дисперсии в пределах диапазона.

Тест C обнаруживает одно исключительно большое значение дисперсии за раз. Затем соответствующий ряд данных исключается из полного набора данных. В соответствии со стандартом ISO 5725 [6] тест C может повторяться до тех пор, пока не будут обнаружены дальнейшие исключительно большие значения дисперсии, но такая практика может привести к чрезмерным отклонениям, если базовые ряды данных не распределены нормально. Тест C оценивает соотношение :

Выборочная дисперсия ряда данных j считается выбросом на уровне значимости α , если C j превышает верхнее предельное критическое значение C UL . C UL зависит от желаемого уровня значимости α , количества рассматриваемых рядов данных N и количества точек данных ( n ) в ряду данных. Выбор значений для C UL был сведен в таблицу для уровней значимости α = 0,01, [6] [7] [8] α = 0,025, [8] и α = 0,05. [6] [7] [8] C УЛтакже можно рассчитать из: [8] [9]

Критерий C можно обобщить, включив в него несбалансированные планы, односторонние тесты нижнего предела и двусторонние тесты на любом уровне значимости α , для любого количества рядов данных N и для любого количества отдельных точек данных n j в ряду данных j . . [8] [9]