В статистике , тест Дуннетты является множественным сравнением процедурой [1] , разработанная канадским статистик Чарльз Dunnett [2] , чтобы сравнить каждый из нескольких процедур с одним контролем. [3] [4] Множественные сравнения с контролем также называются сравнениями «многие к одному».
История
Тест Даннета был разработан в 1955 году; [5] обновленная таблица критических значений была опубликована в 1964 году. [6]
Проблема множественных сравнений
Проблема множественных сравнений, множественности или множественного тестирования возникает, когда один рассматривает набор статистических выводов одновременно или делает вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. Основной проблемой при любом обсуждении процедур множественного сравнения является вопрос о вероятности ошибок типа I. Большинство различий между альтернативными методами связано с разными подходами к вопросу о том, как контролировать эти ошибки. Проблема отчасти техническая; но на самом деле это гораздо более субъективный вопрос о том, как вы хотите определить частоту ошибок и насколько большим вы хотите позволить максимально возможную частоту ошибок. [7] Тест Даннета хорошо известен и широко используется в процедуре множественного сравнения для одновременного сравнения, посредством интервальной оценки или проверки гипотез, всех активных обработок с контролем при выборке из распределения, в котором допущение нормальности является разумным. Тест Даннета предназначен для удержания уровня семейных ошибок на уровне или нижепри выполнении множественных сравнений экспериментальной группы с контролем. [7]
Использование теста Даннета
Первоначальная работа по проблеме множественных сравнений была сделана Тьюки и Шеффе . Их метод был общим, он рассматривал все виды попарных сравнений. [7] Методы Тьюки и Шеффе позволяют проводить любое количество сравнений между набором выборочных средних. С другой стороны, тест Даннета сравнивает только одну группу с другими, обращаясь к частному случаю проблемы множественных сравнений - попарному сравнению нескольких групп лечения с одной контрольной группой. В общем случае, когда мы сравниваем каждую из пар, делаем сравнения (где k - количество групп), но в случае лечения и контроля мы будем делать только сравнения. Если бы в случае экспериментальной и контрольной групп мы использовали более общие методы Тьюки и Шеффе, они могли бы привести к излишне широким доверительным интервалам. Тест Даннета учитывает особую структуру сравнения лечения с контролем, что дает более узкие доверительные интервалы. [5]
Очень часто тест Даннета используется в медицинских экспериментах, например, для сравнения результатов анализа крови у трех групп животных, одна из которых служила контролем, а две другие принимали два разных препарата. Другой распространенный вариант использования этого метода - агрономы: агрономы могут захотеть изучить влияние определенных химикатов, добавленных в почву, на урожай, поэтому они оставят некоторые участки без обработки (контрольные участки) и сравнят их с участками, на которых были добавлены химикаты. почва (участки обработки).
Формальное описание теста Даннета
Тест Даннета выполняется путем вычисления t-статистики Стьюдента для каждой экспериментальной или лечебной группы, где статистика сравнивает экспериментальную группу с одной контрольной группой. [8] [9] Поскольку каждое сравнение имеет один и тот же общий элемент управления, процедура включает зависимости между этими сравнениями. В частности, t-статистика выводится из одной и той же оценки дисперсии ошибок, которая получается путем объединения сумм квадратов ошибок по всем (экспериментальной и контрольной) группам. Формальная тестовая статистика для теста Даннета является либо наибольшей по абсолютной величине этой t-статистики (если требуется двусторонний критерий), либо наиболее отрицательной или наиболее положительной из t-статистики (если односторонний критерий является обязательный).
В тесте Даннета мы можем использовать общую таблицу критических значений, но в настоящее время во многих статистических пакетах, таких как R, легко доступны более гибкие параметры . Критические значения для любой заданной процентной точки зависят от того, выполняется ли односторонний или двусторонний тест; количество сравниваемых групп; общее количество испытаний.
Предположения
Анализ рассматривает случай, когда результаты эксперимента являются числовыми, и эксперимент проводится для сравнения p обработок с контрольной группой. Результаты можно обобщить в виде набора вычисленные средние по множествам наблюдений, , пока относятся к лечению и относится к контрольному набору наблюдений, и является независимой оценкой общего стандартного отклонения всех наборы наблюдений. Все принадлежащий Предполагается, что наборы наблюдений будут независимо и нормально распределены с общей дисперсией и означает . Также есть предположение, что есть доступная оценка для .
Расчет
Расчет теста Даннета - это процедура, основанная на вычислении утверждений о достоверности истинных или ожидаемых значений различия , таким образом, различия между средним значением экспериментальной группы и средним значением контрольной группы. Эта процедура гарантирует, что вероятность всех заявления одновременная правильность равна указанному значению,. При расчете одностороннего верхнего (или нижнего) доверительного интервала для истинного значения разницы между средним значением для лечения и контрольной группы ,представляет собой вероятность того, что это фактическое значение будет меньше верхнего (или больше нижнего) предела этого интервала. При расчете двустороннего доверительного интервала , представляет собой вероятность того, что истинное значение будет между верхним и нижним пределами.
Во-первых, мы обозначим доступные N наблюдений через когда а также и оценить общую дисперсию , например: когда среднее значение группы а также количество наблюдений в группе , а также степени свободы. Как упоминалось ранее, мы хотели бы получить отдельные доверительные интервалы для каждого из различий. такая, что вероятность того, что все доверительные интервалы будут содержать соответствующие равно .
Мы будем рассматривать общий случай, когда есть группы лечения и одна контрольная группа. Напишем:
мы также напишем: , которое следует t-статистическому распределению Стьюдента с n степенями свободы . Нижние доверительные границы с совместным доверительным коэффициентом для эффекты лечения будет выдан:
и константы выбраны так, что . Точно так же верхние пределы будут определяться:
Для ограничения в обоих направлениях можно взять следующий интервал:
когда выбраны, чтобы удовлетворить . Решение этих конкретных значений для двустороннего теста и для одностороннего теста приведено в таблицах. [5] Обновленная таблица критических значений была опубликована в 1964 году. [6]
Примеры
Прочность ткани на разрыв [5]
Следующий пример был адаптирован из примера Вилларса [6]. Данные представляют собой измерения прочности на разрыв ткани, обработанной тремя различными химическими процессами по сравнению со стандартным методом производства.
стандарт | процесс 1 | процесс 2 | процесс 3 | |
---|---|---|---|---|
55 | 55 | 55 | 50 | |
47 | 64 | 49 | 44 год | |
48 | 64 | 52 | 41 год | |
Средства | 50 | 61 | 52 | 45 |
Дисперсия | 19 | 27 | 9 | 21 год |
Здесь p = 3 и N = 3. Средняя дисперсия составляет, что является оценкой общей дисперсии четырех наборов с (p + 1) (N-1) = 8 степенями свободы. Это можно рассчитать следующим образом:
.
Стандартное отклонение составляет и оценочная стандартная ошибка разницы между двумя средними значениями равна .
Количество, которое должно быть добавлено и / или вычтено из наблюдаемых различий между средствами, чтобы дать их доверительные пределы, было названо Тьюки «допуском» и выражено формулой , где t взят из многомерного t-распределения , или может быть получен из таблицы 1 Даннета, если желательны односторонние ограничения, или из таблицы 2 Даннета, если требуются двусторонние пределы. Для p = 3 и df = 8, t = 2,42 для односторонних пределов и t = 2,88 для двусторонних пределов для p = 95%. Аналогичные значения t могут быть определены из таблиц, если требуется достоверность p = 99%. Для односторонних пределов допуск составляет A = (2.42) (3.56) = 9, и экспериментатор может заключить, что:
- Прочность на разрыв при использовании процесса 1 превышает стандарт как минимум на
- Прочность на разрыв при использовании процесса 2 превышает стандарт как минимум на .
- Прочность на разрыв при использовании процесса 3 превышает стандарт как минимум на .
Совместное заявление, состоящее из трех вышеперечисленных выводов, имеет коэффициент уверенности 95%, то есть в долгосрочной перспективе 95% таких совместных заявлений действительно будут правильными. Аналогичным образом можно получить верхние пределы для трех разностей. Для двусторонних пределов допуск составляет A = (2,94) (3,56) = 11, и экспериментатор может заключить, что:
- Прочность на разрыв при использовании процесса 1 превышает стандарт на величину между
а также
- Прочность на разрыв при использовании процесса 2 превышает стандарт на величину между
а также .
- Прочность на разрыв при использовании процесса 3 превышает стандарт на величину между
а также . Совместный коэффициент доверия для этих трех утверждений превышает 95%. (Из-за приближения, сделанного при вычислении таблиц 2a и 2b, табличные значения t несколько больше, чем необходимо, так что фактические достигнутые p немного больше 95 и 99%. Никакого такого приближения не было сделано при вычислении таблиц 1a и 1b) .
Рекомендации
- ^ Аптон Г. и Кук И. (2006) Статистический словарь , 2e, Oxford University Press, Оксфорд, Соединенное Королевство.
- ^ Рамси, Дебора (2009-08-19). Статистика II для чайников . Вайли. п. 186 . Проверено 22 августа 2012 .
тест Даннета, разработанный.
- ^ Эверетт Б.С. и Шрондал А. (2010) Кембриджский статистический словарь , 4e, Cambridge University Press, Кембридж, Соединенное Королевство.
- ^ «Статистическое программное обеспечение | Информационные технологии Университета Кентукки» . Uky.edu. Архивировано из оригинала на 2012-07-31 . Проверено 22 августа 2012 .
- ^ а б в г Даннетт CW (1955). «Процедура множественного сравнения для сравнения нескольких обработок с контролем» . Журнал Американской статистической ассоциации . 50 : 1096–1121. DOI : 10.1080 / 01621459.1955.10501294 .
- ^ a b Dunnett CW (1964.) «Новые таблицы для множественных сравнений с контролем», Biometrics , 20 : 482–491.
- ^ a b c Дэвид К. Хауэлл, "Статистические методы психологии", 8-е изд.
- ^ Тест Даннета, HyperStat Online: вводный учебник по статистике и онлайн-руководство для помощи в курсах статистики
- ^ Механика различных тестов - Биостатистика BI 345 Архивировано 01.06.2010 в Wayback Machine , Колледж Святого Ансельма.