Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Распределение хи-квадрат , показывающее χ 2 по оси x и значение p (вероятность правого хвоста) по оси y .

Критерий хи-квадрат , также обозначаемый как критерий χ 2 , представляет собой тест статистической гипотезы, который допустим для выполнения, когда статистика теста представляет собой критерий хи-квадрат, распределенный при нулевой гипотезе , в частности, критерий хи-квадрат Пирсона и его варианты. Критерий хи-квадрат Пирсона используется для определения наличия статистически значимой разницы между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях таблицы непредвиденных обстоятельств .

В стандартных приложениях этого теста наблюдения делятся на взаимоисключающие классы. Если нулевая гипотеза об отсутствии различий между классами в генеральной совокупности верна, статистика теста, вычисленная из наблюдений, следует распределению частот χ 2 . Цель теста - оценить, насколько вероятно, что наблюдаемые частоты будут предполагать, что нулевая гипотеза верна.

Статистика тестов, которые следуют распределению χ 2, происходит, когда наблюдения независимы и нормально распределены , что часто оправдывается центральной предельной теоремой . Существуют также тесты χ 2 для проверки нулевой гипотезы независимости пары случайных величин на основе наблюдений за парами.

Критерии хи-квадрат часто относятся к тестам, для которых распределение тестовой статистики приближается к распределению χ 2 асимптотически , что означает, что выборочное распределение (если нулевая гипотеза верна) тестовой статистики все более и более приближается к распределению хи-квадрат. по мере увеличения размера выборки .

История [ править ]

В XIX веке статистические аналитические методы применялись в основном в анализе биологических данных, и исследователи обычно предполагали, что наблюдения следуют нормальному распределению , как, например, сэр Джордж Эйри и профессор Мерриман , чьи работы подверглись критике со стороны Карла Пирсона в его статье 1900 года. . [1]

В конце 19 века Пирсон заметил существенную асимметрию некоторых биологических наблюдений. Чтобы смоделировать наблюдения вне зависимости от того, являются они нормальными или искаженными, Пирсон в серии статей, опубликованных с 1893 по 1916 год, [2] [3] [4] [5] разработал распределение Пирсона , семейство непрерывных распределений вероятностей, который включает в себя нормальное распределение и множество искаженных распределений, и предложил метод статистического анализа, состоящий из использования распределения Пирсона для моделирования наблюдения и выполнения теста согласия, чтобы определить, насколько хорошо модель действительно соответствует наблюдениям.

Критерий хи-квадрат Пирсона [ править ]

В 1900 году Пирсон опубликовал статью [1] о тесте χ 2, который считается одной из основ современной статистики. [6] В этой статье Пирсон исследовал критерий согласия.

Предположим, что n наблюдений в случайной выборке из совокупности классифицируются на k взаимоисключающих классов с соответствующими наблюдаемыми числами x i (для i = 1,2,…, k ), а нулевая гипотеза дает вероятность p i того, что наблюдение падает. в i- й класс. Итак, у нас есть ожидаемые числа m i = np i для всех i , где

Пирсон предположил, что при условии, что нулевая гипотеза верна, при n → ∞ предельным распределением величины, приведенной ниже, является распределение χ 2 .

Пирсон сначала рассмотрел случай, когда ожидаемые числа m i являются достаточно большими известными числами во всех ячейках, предполагая, что каждое x i может быть принято как нормально распределенное , и пришел к результату, что в пределе, когда n становится большим, X 2 следует за Распределение χ 2 с k - 1 степенями свободы.

Однако затем Пирсон рассмотрел случай, в котором ожидаемые числа зависели от параметров, которые должны были быть оценены по выборке, и предположил, что с обозначением m i как истинных ожидаемых чисел и m ' i как предполагаемых ожидаемых чисел, разница

обычно будет положительным и достаточно маленьким, чтобы его можно было опустить. В заключение Пирсон утверждал, что если мы будем рассматривать X ' 2 как распределенное как распределение χ 2 с k - 1 степенями свободы, ошибка в этом приближении не повлияет на практические решения. Этот вывод вызвал некоторые разногласия в практических приложениях и не был принят в течение 20 лет до статей Фишера 1922 и 1924 годов. [7] [8]

Другие примеры тестов хи-квадрат [ править ]

Один из статистических показателей, который точно следует распределению хи-квадрат , - это проверка того, что дисперсия нормально распределенной совокупности имеет заданное значение, основанное на дисперсии выборки . Такие тесты нечасто встречаются на практике, поскольку истинная дисперсия совокупности обычно неизвестна. Однако есть несколько статистических тестов, в которых распределение хи-квадрат приблизительно верно:

Точный тест Фишера [ править ]

Точный критерий, используемый вместо критерия хи-квадрат 2 x 2 на независимость, см. В разделе «Точный критерий Фишера» .

Биномиальный тест [ править ]

Чтобы узнать о точном тесте, который используется вместо критерия согласия 2 x 1 на соответствие, см. Биномиальный тест .

Другие тесты хи-квадрат [ править ]

  • Критерий хи-квадрат Кокрана – Мантеля – Хензеля .
  • Тест Макнемара , используемый в некоторых таблицах 2 × 2 с парами
  • Тест аддитивности Тьюки
  • Тест Портманто в анализе временных рядов , проверка на наличие автокорреляции
  • Тесты отношения правдоподобия в общем статистическом моделировании для проверки наличия доказательств необходимости перехода от простой модели к более сложной (где простая модель вложена в сложную).

Поправка Йетса на преемственность [ править ]

Использование распределения хи-квадрат для интерпретации статистики хи-квадрат Пирсона требует предположения, что дискретная вероятность наблюдаемых биномиальных частот в таблице может быть аппроксимирована непрерывным распределением хи-квадрат . Это предположение не совсем верно и вносит некоторую ошибку.

Чтобы уменьшить ошибку приближения, Фрэнк Йейтс предложил поправку на непрерывность, которая корректирует формулу для критерия хи-квадрат Пирсона , вычитая 0,5 из абсолютной разницы между каждым наблюдаемым значением и его ожидаемым значением в таблице непредвиденных обстоятельств 2 × 2 . [9] Это уменьшает полученное значение хи-квадрат и, таким образом, увеличивает его p- значение .

Критерий хи-квадрат для дисперсии в нормальной популяции [ править ]

Если выборка размера n берется из генеральной совокупности, имеющей нормальное распределение , то есть результат (см. Распределение дисперсии выборки ), который позволяет проверить, имеет ли дисперсия совокупности заранее определенное значение. Например, производственный процесс мог находиться в стабильном состоянии в течение длительного периода, что позволяло определять значение отклонения практически без ошибок. Предположим, что тестируется вариант процесса, в результате чего создается небольшая выборка из n единиц продукта, вариации которых необходимо проверить. Статистика теста Tв этом случае можно задать сумму квадратов выборочного среднего, деленную на номинальное значение дисперсии (т. е. значение, которое будет проверяться как имеющееся). Тогда T имеет распределение хи-квадрат с n - 1 степенями свободы . Например, если размер выборки равен 21, приемлемая область для T с уровнем значимости 5% находится между 9,59 и 34,17.

Пример теста хи-квадрат для категориальных данных [ править ]

Предположим , что существует город 1000000 жителей четырех районов: A , B , C и D . Произведена случайная выборка из 650 жителей города, профессия которых записана как «белые воротнички», «синие воротнички» или «без воротничков» . Нулевая гипотеза состоит в том, что район проживания каждого человека не зависит от профессиональной классификации человека. Данные представлены в виде таблицы:

Возьму образец , живущий в окрестностях А , 150, чтобы оценить , какую долю всего 1,000,000 живет в окрестностях А . Аналогично берем349/650оценить, какая часть из 1 000 000 - белые воротнички. Исходя из предположения о независимости в рамках гипотезы, мы должны «ожидать», что количество белых воротничков в районе А будет равным.

Тогда в этой «ячейке» таблицы мы имеем

Сумма этих величин по всем ячейкам является статистикой теста; в этом случае . При нулевой гипотезе эта сумма имеет приблизительно распределение хи-квадрат, число степеней свободы которого равно

Если тестовая статистика невероятно велика в соответствии с этим распределением хи-квадрат, то можно отвергнуть нулевую гипотезу независимости.

Связанный с этим вопрос - это проверка на однородность. Предположим, что вместо того, чтобы дать каждому жителю каждого из четырех районов равные шансы на включение в выборку, мы заранее решаем, сколько жителей каждого района включить. Тогда у каждого жителя будет такой же шанс быть выбранным, как и у всех жителей одного и того же района, но у жителей разных районов будет разная вероятность быть выбранным, если четыре размера выборки не пропорциональны населению четырех районов. В таком случае мы будем проверять «однородность», а не «независимость». Вопрос в том, одинаковы ли пропорции «синих воротничков», «белых воротничков» и «без воротничков» в четырех кварталах. Однако тест делается точно так же.

Приложения [ править ]

В криптоанализе критерий хи-квадрат используется для сравнения распределения открытого текста и (возможно) дешифрованного зашифрованного текста . Наименьшее значение теста означает, что расшифровка прошла успешно с высокой вероятностью. [10] [11] Этот метод можно обобщить для решения современных криптографических задач. [12]

В биоинформатике критерий хи-квадрат используется для сравнения распределения определенных свойств генов (например, геномного содержания, скорости мутаций, кластеризации сетей взаимодействия и т. Д.), Принадлежащих к разным категориям (например, гены болезней, основные гены, гены в определенная хромосома и т. д.). [13] [14]

См. Также [ править ]

  • Таблица сопряженности
  • Номограмма теста хи-квадрат
  • G -тест
  • Минимальная оценка хи-квадрат
  • Непараметрическая статистика
  • Тест Вальда
  • Интервал счета Уилсона

Ссылки [ править ]

  1. ^ а б Пирсон, Карл (1900). «По критерию того, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. DOI : 10.1080 / 14786440009463897 .
  2. ^ Пирсон, Карл (1893). «Вклад в математическую теорию эволюции [аннотация]» . Труды Королевского общества . 54 : 329–333. DOI : 10,1098 / rspl.1893.0079 . JSTOR 115538 . 
  3. ^ Пирсон, Карл (1895). "Вклад в математическую теорию эволюции, II: изменение перекоса в однородном материале" . Философские труды Королевского общества . 186 : 343–414. Bibcode : 1895RSPTA.186..343P . DOI : 10,1098 / rsta.1895.0010 . JSTOR 90649 . 
  4. ^ Пирсон, Карл (1901). «Математический вклад в теорию эволюции, X: Дополнение к мемуарам о перекосах» . Философские труды Королевского общества А . 197 (287–299): 443–459. Bibcode : 1901RSPTA.197..443P . DOI : 10,1098 / rsta.1901.0023 . JSTOR 90841 . 
  5. ^ Пирсон, Карл (1916). «Математические вклады в теорию эволюции, XIX: второе приложение к мемуарам о перекосах» . Философские труды Королевского общества А . 216 (538–548): 429–457. Bibcode : 1916RSPTA.216..429P . DOI : 10,1098 / rsta.1916.0009 . JSTOR 91092 . 
  6. ^ Кокран, Уильям Г. (1952). «Тест согласия по критерию хи-квадрат» . Анналы математической статистики . 23 (3): 315–345. DOI : 10.1214 / АОМ / 1177729380 . JSTOR 2236678 . 
  7. ^ Фишер, Рональд А. (1922). «Об интерпретации χ 2 из таблиц непредвиденных обстоятельств и вычислении P» . Журнал Королевского статистического общества . 85 (1): 87–94. DOI : 10.2307 / 2340521 . JSTOR 2340521 . 
  8. ^ Фишер, Рональд А. (1924). «Условия, при которых χ 2 измеряет расхождение между наблюдением и гипотезой». Журнал Королевского статистического общества . 87 (3): 442–450. JSTOR 2341149 . 
  9. ^ Йейтс, Франк (1934). «Таблица непредвиденных обстоятельств с малыми числами и критерием χ 2 ». Приложение к Журналу Королевского статистического общества . 1 (2): 217–235. DOI : 10.2307 / 2983604 . JSTOR 2983604 . 
  10. ^ "Статистика хи-квадрат" . Практическая криптография . Архивировано из оригинала 18 февраля 2015 года . Проверено 18 февраля 2015 года .
  11. ^ «Использование Chi Squared для взлома кодов» . Ресурсы IB ​​по математике . Британская международная школа на Пхукете.
  12. ^ Рябко, Б. Я .; Стогниенко, ВС; Шокин, Ю. И. (2004). «Новый тест на случайность и его применение к некоторым криптографическим задачам» (PDF) . Журнал статистического планирования и вывода . 123 (2): 365–376. DOI : 10.1016 / s0378-3758 (03) 00149-6 . Проверено 18 февраля 2015 года .
  13. ^ Feldman, I .; Ржецкий, А .; Виткуп Д. (2008). «Сетевые свойства генов, несущих мутации наследственных болезней» . PNAS . 105 (11): 4323–432. Bibcode : 2008PNAS..105.4323F . DOI : 10.1073 / pnas.0701722105 . PMC 2393821 . PMID 18326631 .  
  14. ^ "хи-квадрат-тесты" (PDF) . Архивировано из оригинального (PDF) 29 июня 2018 года . Проверено 29 июня 2018 .

Дальнейшее чтение [ править ]

  • Вайсштейн, Эрик В. «Тест хи-квадрат» . MathWorld .
  • Кордер, ГВт; Форман, Д.И. (2014), Непараметрическая статистика: пошаговый подход , Нью-Йорк: Wiley, ISBN 978-1118840313
  • Гринвуд, Синди ; Никулин, М.С. (1996), Руководство по тестированию хи-квадрат , Нью-Йорк: Wiley, ISBN 0-471-55779-X
  • Никулин, М.С. (1973), "Критерий хи-квадрат на нормальность", Труды Международной Вильнюсской конференции по теории вероятностей и математической статистике , 2 , стр. 119–122
  • Багдонавичюс, В .; Никулин, М.С. (2011), «Критерий согласия по критерию хи-квадрат для данных, прошедших цензуру справа» , Международный журнал прикладной математики и статистики , стр. 30–50[ требуется полная ссылка ]