Тест Кокрана C

В статистике критерий Кокрана C , ^[1] названный в честь Уильяма Г. Кокрана , является односторонним тестом выброса дисперсии верхнего предела . Критерий C используется, чтобы решить, является ли отдельная оценка дисперсии (или стандартного отклонения ) значительно большей , чем группа дисперсий (или стандартных отклонений), с которыми единая оценка должна быть сопоставима. Тест C обсуждается во многих учебниках ^[2]^[3]^[4] и рекомендован IUPAC ^[5] и ISO . ^[6] Критерий Кокрана С не следует путать с критерием Кокрана Q , который применяется к анализу двусторонних рандомизированных блоков .

Тест C предполагает сбалансированный дизайн, т. е. рассматриваемый полный набор данных должен состоять из отдельных рядов данных одинакового размера. Тест C также предполагает, что каждый отдельный ряд данных имеет нормальное распределение . Хотя в первую очередь тест на выбросы, тест C также используется в качестве простой альтернативы обычным тестам гомоскедастичности , таким как тест Бартлетта, тест Левена и тест Брауна-Форсайта, для проверки набора статистических данных на однородность дисперсий . Еще более простой способ проверки гомоскедастичности обеспечивается тестом Хартли F _max , ^[3]но критерий F _max Хартли имеет тот недостаток, что он учитывает только минимум и максимум диапазона дисперсии, в то время как критерий C учитывает все дисперсии в пределах диапазона.

Тест C обнаруживает одно исключительно большое значение дисперсии за раз. Затем соответствующий ряд данных исключается из полного набора данных. В соответствии со стандартом ISO 5725 ^[6] тест C может повторяться до тех пор, пока не будут обнаружены дальнейшие исключительно большие значения дисперсии, но такая практика может привести к чрезмерным отклонениям, если базовые ряды данных не распределены нормально. Тест C оценивает соотношение :

Выборочная дисперсия ряда данных j считается выбросом на уровне значимости α , если C _j превышает верхнее предельное критическое значение C _UL . C _UL зависит от желаемого уровня значимости α , количества рассматриваемых рядов данных N и количества точек данных ( n ) в ряду данных. Выбор значений для C _UL был сведен в таблицу для уровней значимости α = 0,01, ^[6]^[7]^[8] α = 0,025, ^[8] и α = 0,05. ^[6]^[7]^[8] C _УЛтакже можно рассчитать из: ^[8]^[9]

Критерий C можно обобщить, включив в него несбалансированные планы, односторонние тесты нижнего предела и двусторонние тесты на любом уровне значимости α , для любого количества рядов данных N и для любого количества отдельных точек данных n _j в ряду данных j . . ^[8]^[9]