Тест Даннета

В статистике , тест Дуннетты является множественным сравнением процедурой ^[1] , разработанная канадским статистик Чарльз Dunnett ^[2] , чтобы сравнить каждый из нескольких процедур с одним контролем. ^[3]^[4] Множественные сравнения с контролем также называются сравнениями «многие к одному».

История

Тест Даннета был разработан в 1955 году; ^[5] обновленная таблица критических значений была опубликована в 1964 году. ^[6]

Проблема множественных сравнений

Проблема множественных сравнений, множественности или множественного тестирования возникает, когда один рассматривает набор статистических выводов одновременно или делает вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. Основной проблемой при любом обсуждении процедур множественного сравнения является вопрос о вероятности ошибок типа I. Большинство различий между альтернативными методами связано с разными подходами к вопросу о том, как контролировать эти ошибки. Проблема отчасти техническая; но на самом деле это гораздо более субъективный вопрос о том, как вы хотите определить частоту ошибок и насколько большим вы хотите позволить максимально возможную частоту ошибок. ^[7] Тест Даннета хорошо известен и широко используется в процедуре множественного сравнения для одновременного сравнения, посредством интервальной оценки или проверки гипотез, всех активных обработок с контролем при выборке из распределения, в котором допущение нормальности является разумным. Тест Даннета предназначен для удержания уровня семейных ошибок на уровне или ниже ${\ displaystyle \ alpha}$ при выполнении множественных сравнений экспериментальной группы с контролем. ^[7]

Использование теста Даннета

Первоначальная работа по проблеме множественных сравнений была сделана Тьюки и Шеффе . Их метод был общим, он рассматривал все виды попарных сравнений. ^[7] Методы Тьюки и Шеффе позволяют проводить любое количество сравнений между набором выборочных средних. С другой стороны, тест Даннета сравнивает только одну группу с другими, обращаясь к частному случаю проблемы множественных сравнений - попарному сравнению нескольких групп лечения с одной контрольной группой. В общем случае, когда мы сравниваем каждую из пар, делаем ${\ Displaystyle к (к-1) {\ big /} 2}$ сравнения (где k - количество групп), но в случае лечения и контроля мы будем делать только ${\ Displaystyle (к-1)}$ сравнения. Если бы в случае экспериментальной и контрольной групп мы использовали более общие методы Тьюки и Шеффе, они могли бы привести к излишне широким доверительным интервалам. Тест Даннета учитывает особую структуру сравнения лечения с контролем, что дает более узкие доверительные интервалы. ^[5]
Очень часто тест Даннета используется в медицинских экспериментах, например, для сравнения результатов анализа крови у трех групп животных, одна из которых служила контролем, а две другие принимали два разных препарата. Другой распространенный вариант использования этого метода - агрономы: агрономы могут захотеть изучить влияние определенных химикатов, добавленных в почву, на урожай, поэтому они оставят некоторые участки без обработки (контрольные участки) и сравнят их с участками, на которых были добавлены химикаты. почва (участки обработки).

Формальное описание теста Даннета

Тест Даннета выполняется путем вычисления t-статистики Стьюдента для каждой экспериментальной или лечебной группы, где статистика сравнивает экспериментальную группу с одной контрольной группой. ^[8]^[9] Поскольку каждое сравнение имеет один и тот же общий элемент управления, процедура включает зависимости между этими сравнениями. В частности, t-статистика выводится из одной и той же оценки дисперсии ошибок, которая получается путем объединения сумм квадратов ошибок по всем (экспериментальной и контрольной) группам. Формальная тестовая статистика для теста Даннета является либо наибольшей по абсолютной величине этой t-статистики (если требуется двусторонний критерий), либо наиболее отрицательной или наиболее положительной из t-статистики (если односторонний критерий является обязательный).

В тесте Даннета мы можем использовать общую таблицу критических значений, но в настоящее время во многих статистических пакетах, таких как R, легко доступны более гибкие параметры . Критические значения для любой заданной процентной точки зависят от того, выполняется ли односторонний или двусторонний тест; количество сравниваемых групп; общее количество испытаний.

Предположения

Анализ рассматривает случай, когда результаты эксперимента являются числовыми, и эксперимент проводится для сравнения p обработок с контрольной группой. Результаты можно обобщить в виде набора ${\ Displaystyle (п + 1)}$ вычисленные средние по множествам наблюдений, ${\ displaystyle ({\ bar {X_ {0}}}, ..., {\ bar {X_ {p}}})}$ , пока ${\ displaystyle ({\ bar {X_ {1}}}, ..., {\ bar {X_ {p}}})}$ относятся к лечению и ${\ displaystyle {\ bar {X_ {0}}}}$ относится к контрольному набору наблюдений, и ${\ displaystyle s}$ является независимой оценкой общего стандартного отклонения всех ${\ displaystyle p + 1}$ наборы наблюдений. Все ${\ displaystyle {\ bar {X_ {i}}}}$ принадлежащий ${\ displaystyle p + 1}$ Предполагается, что наборы наблюдений будут независимо и нормально распределены с общей дисперсией ${\ displaystyle \ sigma ^ {2}}$ и означает ${\ Displaystyle \ mu _ {я}}$ . Также есть предположение, что есть доступная оценка ${\ displaystyle s ^ {2}}$ для ${\ displaystyle \ sigma ^ {2}}$ .

Расчет

Расчет теста Даннета - это процедура, основанная на вычислении утверждений о достоверности истинных или ожидаемых значений ${\ displaystyle p}$ различия ${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}}}$ , таким образом, различия между средним значением экспериментальной группы и средним значением контрольной группы. Эта процедура гарантирует, что вероятность всех ${\ displaystyle p}$ заявления ${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}}}$ одновременная правильность равна указанному значению, ${\ displaystyle P}$ . При расчете одностороннего верхнего (или нижнего) доверительного интервала для истинного значения разницы между средним значением для лечения и контрольной группы , ${\ displaystyle P}$ представляет собой вероятность того, что это фактическое значение будет меньше верхнего (или больше нижнего) предела этого интервала. При расчете двустороннего доверительного интервала , ${\ displaystyle P}$ представляет собой вероятность того, что истинное значение будет между верхним и нижним пределами.

Во-первых, мы обозначим доступные N наблюдений через ${\ displaystyle X_ {ij}}$ когда ${\ displaystyle i = 1 ... p}$ а также ${\ displaystyle j = 1 ... N_ {i}}$ и оценить общую дисперсию , например: ${\ displaystyle s ^ {2} = {\ frac {\ sum _ {i = 0} ^ {p} \ sum _ {j = 1} ^ {N_ {i}} (X_ {ij} - {\ bar { X_ {i}}}) ^ {2}} {n}}}$ когда ${\ displaystyle {\ bar {X_ {i}}}}$ среднее значение группы ${\ displaystyle i}$ а также ${\ displaystyle N_ {i}}$ количество наблюдений в группе ${\ displaystyle i}$ , а также ${\ Displaystyle п = \ сумма _ {я = 0} ^ {р} N_ {я} - (р + 1)}$ степени свободы. Как упоминалось ранее, мы хотели бы получить отдельные доверительные интервалы для каждого из различий. ${\ displaystyle m_ {i} -m_ {0}, (i = 1 ... p)}$ такая, что вероятность того, что все ${\ displaystyle p}$ доверительные интервалы будут содержать соответствующие ${\ displaystyle m_ {i} -m_ {0}}$ равно ${\ displaystyle P}$ .

Мы будем рассматривать общий случай, когда есть ${\ displaystyle p}$ группы лечения и одна контрольная группа. Напишем:

${\ displaystyle z_ {i} = {\ cfrac {{\ bar {X_ {i}}} - {\ bar {X_ {0}}} - (m_ {i} -m_ {0})} {\ sqrt { {\ cfrac {1} {N_ {i}}} + {\ cfrac {1} {N_ {0}}}}}}}$

${\ displaystyle D_ {i} = {\ cfrac {{\ bar {X_ {i}}} - {\ bar {X_ {0}}} - (m_ {i} -m_ {0})} {s {\ sqrt {{\ cfrac {1} {N_ {i}}} + {\ cfrac {1} {N_ {0}}}}}}}}$

мы также напишем: ${\ displaystyle D_ {i} = {\ frac {z_ {i}} {s}}}$ , которое следует t-статистическому распределению Стьюдента с n степенями свободы . Нижние доверительные границы с совместным доверительным коэффициентом ${\ displaystyle P}$ для ${\ displaystyle p}$ эффекты лечения ${\ displaystyle m_ {i} -m_ {0}, (i = 1 ... p)}$ будет выдан:

${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}} - d_ {i} s {\ sqrt {{\ frac {1} {N_ {i}}} + { \ frac {1} {N_ {0}}}}}, i = 1 ... p}$

и ${\ displaystyle p}$ константы ${\ displaystyle d_ {i} '}$ выбраны так, что ${\ displaystyle Prob (t_ {1}$ . Точно так же верхние пределы будут определяться:

${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}} + d_ {i} s {\ sqrt {{\ frac {1} {N_ {i}}} + { \ frac {1} {N_ {0}}}}}, i = 1 ... p}$

Для ограничения ${\ displaystyle m_ {i} -m_ {0}}$ в обоих направлениях можно взять следующий интервал:

${\ displaystyle {\ bar {X_ {i}}} - {\ bar {X_ {0}}} \ pm d_ {i} 's {\ sqrt {{\ frac {1} {N_ {i}}} + {\ frac {1} {N_ {0}}}}}, i = 1 ... p}$

когда ${\ displaystyle d_ {i} ''}$ выбраны, чтобы удовлетворить ${\ displaystyle Prob (| t_ {1} |$ . Решение этих конкретных значений ${\ displaystyle d_ {i} ''}$ для двустороннего теста и ${\ displaystyle d_ {i} '}$ для одностороннего теста приведено в таблицах. ^[5] Обновленная таблица критических значений была опубликована в 1964 году. ^[6]

Примеры

Прочность ткани на разрыв ^[5]

Следующий пример был адаптирован из примера Вилларса [6]. Данные представляют собой измерения прочности на разрыв ткани, обработанной тремя различными химическими процессами по сравнению со стандартным методом производства.

прочность на разрыв (фунты)
	стандарт	процесс 1	процесс 2	процесс 3
	55	55	55	50
	47	64	49	44 год
	48	64	52	41 год
Средства	50	61	52	45
Дисперсия	19	27	9	21 год

Здесь p = 3 и N = 3. Средняя дисперсия составляет ${\ displaystyle s ^ {2} = 19}$ , что является оценкой общей дисперсии четырех наборов с (p + 1) (N-1) = 8 степенями свободы. Это можно рассчитать следующим образом:

${\ displaystyle {\ frac {55 ^ {2} + 47 ^ {2} + 48 ^ {2} + 55 ^ {2} + ... + 41 ^ {2} -3 (50 ^ {2} +61 ^ {2} + 52 ^ {2} + 45 ^ {2})} {8}} = {\ frac {152} {8}} = 19}$ .

Стандартное отклонение составляет ${\ displaystyle s = {\ sqrt {19}} = 4,36}$ и оценочная стандартная ошибка разницы между двумя средними значениями равна ${\ displaystyle s {\ sqrt {\ frac {2} {N}}} = 4,36 {\ sqrt {\ frac {2} {N}}} = 3,56}$ .

Количество, которое должно быть добавлено и / или вычтено из наблюдаемых различий между средствами, чтобы дать их доверительные пределы, было названо Тьюки «допуском» и выражено формулой ${\ displaystyle A = ts {\ sqrt {\ frac {2} {N}}}}$ , где t взят из многомерного t-распределения , или может быть получен из таблицы 1 Даннета, если желательны односторонние ограничения, или из таблицы 2 Даннета, если требуются двусторонние пределы. Для p = 3 и df = 8, t = 2,42 для односторонних пределов и t = 2,88 для двусторонних пределов для p = 95%. Аналогичные значения t могут быть определены из таблиц, если требуется достоверность p = 99%. Для односторонних пределов допуск составляет A = (2.42) (3.56) = 9, и экспериментатор может заключить, что:

Прочность на разрыв при использовании процесса 1 превышает стандарт как минимум на ${\ displaystyle 61-50-9 = 2 фунта}$
Прочность на разрыв при использовании процесса 2 превышает стандарт как минимум на ${\ displaystyle 52-50-9 = -7 фунтов}$ .
Прочность на разрыв при использовании процесса 3 превышает стандарт как минимум на ${\ displaystyle 45-50-9 = -14 фунтов}$ .

Совместное заявление, состоящее из трех вышеперечисленных выводов, имеет коэффициент уверенности 95%, то есть в долгосрочной перспективе 95% таких совместных заявлений действительно будут правильными. Аналогичным образом можно получить верхние пределы для трех разностей. Для двусторонних пределов допуск составляет A = (2,94) (3,56) = 11, и экспериментатор может заключить, что:

Прочность на разрыв при использовании процесса 1 превышает стандарт на величину между

${\ displaystyle 61-50-11 = 0 фунтов}$ а также ${\ displaystyle 61-50 + 11 = 22 фунта}$

Прочность на разрыв при использовании процесса 2 превышает стандарт на величину между

${\ displaystyle 52-50-11 = -9 фунтов}$ а также ${\ displaystyle 52-50 + 11 = 13 фунтов}$ .

Прочность на разрыв при использовании процесса 3 превышает стандарт на величину между

${\ displaystyle 45-50-11 = -16 фунтов}$ а также ${\ displaystyle 45-50 + 11 = 6 фунтов}$ . Совместный коэффициент доверия для этих трех утверждений превышает 95%. (Из-за приближения, сделанного при вычислении таблиц 2a и 2b, табличные значения t несколько больше, чем необходимо, так что фактические достигнутые p немного больше 95 и 99%. Никакого такого приближения не было сделано при вычислении таблиц 1a и 1b) .