Из Википедии, бесплатной энциклопедии
  (Перенаправлено из теста хи-квадрат )
Перейти к навигации Перейти к поиску
Распределение хи-квадрат , показывающее χ 2 по оси x и значение p (вероятность правого хвоста) по оси y .

Критерий хи-квадрат , также обозначаемый как критерий χ 2 , представляет собой тест статистической гипотезы, который допустим для выполнения, когда тестовая статистика представляет собой хи-квадрат, распределенный при нулевой гипотезе , в частности, критерий хи-квадрат Пирсона и его варианты. Критерий хи-квадрат Пирсона используется для определения наличия статистически значимой разницы между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях таблицы непредвиденных обстоятельств .

В стандартных приложениях этого теста наблюдения подразделяются на взаимоисключающие классы. Если нулевая гипотеза об отсутствии различий между классами в генеральной совокупности верна, статистика теста, вычисленная на основе наблюдений, следует распределению частот χ 2 . Цель теста - оценить, насколько вероятно, что наблюдаемые частоты будут предполагать, что нулевая гипотеза верна.

Статистика тестов, которые следуют распределению χ 2, возникает, когда наблюдения независимы и нормально распределены , что часто оправдывается центральной предельной теоремой . Есть также χ 2 тестов для проверки нулевой гипотезы о независимости пары случайных величин , основанных на наблюдениях пара.

Критерии хи-квадрат часто относятся к тестам, для которых распределение тестовой статистики приближается к распределению χ 2 асимптотически , что означает, что выборочное распределение (если нулевая гипотеза верна) тестовой статистики все более и более приближается к распределению хи-квадрат. по мере увеличения размера выборки .

История [ править ]

В XIX веке статистические аналитические методы в основном применялись в анализе биологических данных, и исследователи обычно предполагали, что наблюдения следовали за нормальным распределением , как, например, сэр Джордж Эйри и профессор Мерриман , чьи работы подверглись критике со стороны Карла Пирсона в его статье 1900 года. . [1]

В конце 19 века Пирсон заметил наличие значительного перекоса в некоторых биологических наблюдениях. Чтобы смоделировать наблюдения независимо от того, являются они нормальными или искаженными, Пирсон в серии статей, опубликованных с 1893 по 1916 год, [2] [3] [4] [5] разработал распределение Пирсона , семейство непрерывных распределений вероятностей, который включает в себя нормальное распределение и множество искаженных распределений, и предложил метод статистического анализа, состоящий из использования распределения Пирсона для моделирования наблюдения и выполнения теста согласия, чтобы определить, насколько хорошо модель действительно соответствует наблюдениям.

Критерий хи-квадрат Пирсона [ править ]

В 1900 году Пирсон опубликовал статью [1] о тесте χ 2, который считается одной из основ современной статистики. [6] В этой статье Пирсон исследовал критерий согласия.

Предположим, что n наблюдений в случайной выборке из совокупности классифицируются на k взаимоисключающих классов с соответствующими наблюдаемыми числами x i (для i = 1,2,…, k ), а нулевая гипотеза дает вероятность p i того, что наблюдение падает. в i- й класс. Итак, у нас есть ожидаемые числа m i = np i для всех i , где

Пирсон предположил, что при условии, что нулевая гипотеза верна, при n → ∞ предельным распределением величины, приведенной ниже, является распределение χ 2 .

Пирсон сначала рассмотрел случай, когда ожидаемые числа m i являются достаточно большими известными числами во всех ячейках, предполагая, что каждое x i может быть принято как нормально распределенное , и пришел к результату, что в пределе, когда n становится большим, X 2 следует за Распределение χ 2 с k - 1 степенями свободы.

Однако затем Пирсон рассмотрел случай, в котором ожидаемые числа зависели от параметров, которые должны были быть оценены на основе выборки, и предположил, что с обозначением m i как истинных ожидаемых чисел и m ' i как предполагаемых ожидаемых чисел, разница

обычно будет положительным и достаточно маленьким, чтобы его можно было опустить. В заключение Пирсон утверждал, что если мы будем рассматривать X ' 2 как распределенное как распределение χ 2 с k - 1 степенями свободы, ошибка в этом приближении не повлияет на практические решения. Этот вывод вызвал некоторые разногласия в практических приложениях и не был принят в течение 20 лет до статей Фишера 1922 и 1924 годов. [7] [8]

Другие примеры тестов хи-квадрат [ править ]

Один из статистических показателей, который точно следует распределению хи-квадрат , - это проверка того, что дисперсия нормально распределенной совокупности имеет заданное значение на основе дисперсии выборки . Такие тесты на практике нечасты, потому что истинная дисперсия популяции обычно неизвестна. Однако существует несколько статистических тестов, в которых распределение хи-квадрат приблизительно верно:

Точный тест Фишера [ править ]

Точный критерий, используемый вместо критерия 2 x 2 на независимость, см. В разделе «Точный критерий Фишера» .

Биномиальный тест [ править ]

Точный тест, используемый вместо критерия согласия 2 x 1, см. В разделе « Биномиальный тест» .

Другие тесты хи-квадрат [ править ]

  • Критерий хи-квадрат Кокрана – Мантеля – Хензеля .
  • Тест Макнемара , используемый в некоторых таблицах 2 × 2 с парами
  • Тест аддитивности Тьюки
  • Тест Портманто в анализе временных рядов , проверка на наличие автокорреляции
  • Тесты отношения правдоподобия в общем статистическом моделировании для проверки наличия доказательств необходимости перехода от простой модели к более сложной (где простая модель вложена в сложную).

Поправка Йетса на преемственность [ править ]

Использование распределения хи-квадрат для интерпретации статистики хи-квадрат Пирсона требует предположения, что дискретная вероятность наблюдаемых биномиальных частот в таблице может быть аппроксимирована непрерывным распределением хи-квадрат . Это предположение не совсем верно и вносит некоторую ошибку.

Чтобы уменьшить ошибку приближения, Фрэнк Йейтс предложил поправку на непрерывность, которая корректирует формулу для критерия хи-квадрат Пирсона путем вычитания 0,5 из абсолютной разницы между каждым наблюдаемым значением и его ожидаемым значением в таблице непредвиденных обстоятельств 2 × 2 . [9] Это уменьшает полученное значение хи-квадрат и, таким образом, увеличивает его p- значение .

Критерий хи-квадрат для дисперсии в нормальной популяции [ править ]

Если выборка размера n берется из генеральной совокупности, имеющей нормальное распределение , то есть результат (см. Распределение дисперсии выборки ), который позволяет проверить, имеет ли дисперсия генеральной совокупности заранее определенное значение. Например, производственный процесс мог находиться в стабильном состоянии в течение длительного периода, что позволяло определять значение отклонения практически без ошибок. Предположим, что тестируется вариант процесса, в результате чего создается небольшая выборка из n единиц продукта, вариации которых необходимо проверить. Статистика теста Tв этом случае можно задать сумму квадратов выборочного среднего, деленную на номинальное значение дисперсии (т. е. значение, которое будет проверяться как имеющееся). Тогда T имеет распределение хи-квадрат с n - 1 степенями свободы . Например, если размер выборки равен 21, приемлемая область для T с уровнем значимости 5% находится между 9,59 и 34,17.

Пример критерия хи-квадрат для категориальных данных [ править ]

Предположим , что существует город 1000000 жителей четырех районов: A , B , C и D . Произведена случайная выборка из 650 жителей города, занятие которых записано как «белые воротнички», «синие воротнички» или «без воротничков» . Нулевая гипотеза состоит в том, что район проживания каждого человека не зависит от профессиональной классификации человека. Данные представлены в виде таблицы:

Возьму образец , живущий в окрестностях А , 150, чтобы оценить , какую долю всего 1,000,000 живет в окрестностях А . Аналогично берем349/650оценить, какая часть из 1 000 000 - белые воротнички. Исходя из предположения о независимости в рамках гипотезы, мы должны «ожидать», что количество белых воротничков в районе А будет равным.

Тогда в этой «ячейке» таблицы мы имеем

Сумма этих величин по всем ячейкам является статистикой теста; в этом случае . При нулевой гипотезе эта сумма имеет приблизительно распределение хи-квадрат, число степеней свободы которого равно

Если тестовая статистика невероятно велика в соответствии с этим распределением хи-квадрат, то можно отвергнуть нулевую гипотезу независимости.

Связанный с этим вопрос - это проверка на однородность. Предположим, что вместо того, чтобы дать каждому жителю каждого из четырех районов равные шансы на включение в выборку, мы заранее решаем, сколько жителей каждого района включить. Тогда у каждого жителя будет такой же шанс быть выбранным, как и у всех жителей одного и того же района, но у жителей разных районов будет разная вероятность быть выбранным, если четыре размера выборки не пропорциональны населению четырех районов. В таком случае мы будем проверять «однородность», а не «независимость». Вопрос в том, одинаковы ли пропорции «синих воротничков», «белых воротничков» и «без воротничков» в четырех кварталах. Однако тест проводится точно так же.

Приложения [ править ]

В криптоанализе критерий хи-квадрат используется для сравнения распределения открытого текста и (возможно) дешифрованного зашифрованного текста . Самое низкое значение теста означает, что расшифровка прошла успешно с высокой вероятностью. [10] [11] Этот метод можно обобщить для решения современных криптографических задач. [12]

В биоинформатике критерий хи-квадрат используется для сравнения распределения определенных свойств генов (например, геномного содержимого, скорости мутаций, кластеризации сетей взаимодействия и т. Д.), Принадлежащих к разным категориям (например, гены болезней, основные гены, гены в определенная хромосома и т. д.). [13] [14]

См. Также [ править ]

  • Таблица сопряженности
  • Номограмма теста хи-квадрат
  • G -тест
  • Минимальная оценка хи-квадрат
  • Непараметрическая статистика
  • Тест Вальда
  • Интервал счета Уилсона

Ссылки [ править ]

  1. ^ а б Пирсон, Карл (1900). «По критерию, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. DOI : 10.1080 / 14786440009463897 .
  2. ^ Пирсон, Карл (1893). «Вклад в математическую теорию эволюции [аннотация]» . Труды Королевского общества . 54 : 329–333. DOI : 10,1098 / rspl.1893.0079 . JSTOR 115538 . 
  3. ^ Пирсон, Карл (1895). "Вклад в математическую теорию эволюции, II: изменение перекоса в однородном материале" . Философские труды Королевского общества . 186 : 343–414. Bibcode : 1895RSPTA.186..343P . DOI : 10,1098 / rsta.1895.0010 . JSTOR 90649 . 
  4. ^ Пирсон, Карл (1901). «Математический вклад в теорию эволюции, X: Дополнение к мемуарам о перекосах» . Философские труды Королевского общества А . 197 (287–299): 443–459. Bibcode : 1901RSPTA.197..443P . DOI : 10,1098 / rsta.1901.0023 . JSTOR 90841 . 
  5. ^ Пирсон, Карл (1916). «Математические вклады в теорию эволюции, XIX: второе приложение к мемуарам о перекосах» . Философские труды Королевского общества А . 216 (538–548): 429–457. Bibcode : 1916RSPTA.216..429P . DOI : 10,1098 / rsta.1916.0009 . JSTOR 91092 . 
  6. ^ Кокран, Уильям Г. (1952). «Тест согласия по критерию хи-квадрат» . Летопись математической статистики . 23 (3): 315–345. DOI : 10.1214 / АОМ / 1177729380 . JSTOR 2236678 . 
  7. ^ Фишер, Рональд А. (1922). «Об интерпретации χ 2 из таблиц непредвиденных обстоятельств и вычислении P» . Журнал Королевского статистического общества . 85 (1): 87–94. DOI : 10.2307 / 2340521 . JSTOR 2340521 . 
  8. ^ Фишер, Рональд А. (1924). «Условия, при которых χ 2 измеряет несоответствие между наблюдением и гипотезой». Журнал Королевского статистического общества . 87 (3): 442–450. JSTOR 2341149 . 
  9. ^ Йейтс, Франк (1934). «Таблица непредвиденных обстоятельств с малыми числами и критерием χ 2 ». Приложение к Журналу Королевского статистического общества . 1 (2): 217–235. DOI : 10.2307 / 2983604 . JSTOR 2983604 . 
  10. ^ "Статистика хи-квадрат" . Практическая криптография . Архивировано из оригинала 18 февраля 2015 года . Проверено 18 февраля 2015 года .
  11. ^ «Использование Чи в квадрате для взлома кодов» . Ресурсы IB ​​по математике . Британская международная школа на Пхукете.
  12. ^ Рябко, Б. Я .; Стогниенко, В.С.; Шокин, Ю. И. (2004). «Новый тест на случайность и его применение к некоторым криптографическим задачам» (PDF) . Журнал статистического планирования и вывода . 123 (2): 365–376. DOI : 10.1016 / s0378-3758 (03) 00149-6 . Проверено 18 февраля 2015 года .
  13. ^ Feldman, I .; Ржецкий, А .; Виткуп Д. (2008). «Сетевые свойства генов, несущих в себе мутации наследственных болезней» . PNAS . 105 (11): 4323–432. Bibcode : 2008PNAS..105.4323F . DOI : 10.1073 / pnas.0701722105 . PMC 2393821 . PMID 18326631 .  
  14. ^ "хи-квадрат-тесты" (PDF) . Архивировано из оригинального (PDF) 29 июня 2018 года . Проверено 29 июня 2018 .

Дальнейшее чтение [ править ]

  • Вайсштейн, Эрик В. «Тест хи-квадрат» . MathWorld .
  • Кордер, ГВт; Форман, Д.И. (2014), Непараметрическая статистика: пошаговый подход , Нью-Йорк: Wiley, ISBN 978-1118840313
  • Гринвуд, Синди ; Никулин, М.С. (1996), Руководство по тестированию хи-квадрат , Нью-Йорк: Wiley, ISBN. 0-471-55779-X
  • Никулин, М.С. (1973), «Критерий хи-квадрат на нормальность», Труды Международной Вильнюсской конференции по теории вероятностей и математической статистике , 2 , стр. 119–122
  • Багдонавичюс, В .; Никулин, М.С. (2011), «Критерий согласия по критерию хи-квадрат для данных, прошедших цензуру справа» , Международный журнал прикладной математики и статистики , стр. 30–50.[ требуется полная цитата ]