Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , размер эффекта является число измерения силы взаимосвязи между двумя переменными в статистической совокупности, или выборочная оценка на основе этой величины. Он может относиться к значению статистики, рассчитанному на основе выборки данных , значению параметра гипотетической статистической совокупности или к уравнению, которое определяет, как статистика или параметры приводят к значению размера эффекта. [1] Примеры размеров эффектов включают в себя корреляцию между двумя переменными, [2] в регрессии коэффициент в регрессии, тем среднейразница или риск возникновения определенного события (например, сердечного приступа). Размеры эффекта дополняют статистическую проверку гипотез и играют важную роль в анализе мощности , планировании размера выборки и в метаанализе . Группа методов анализа данных о величине эффекта называется оценочной статистикой .

Размер эффекта является важным компонентом при оценке силы статистического утверждения, и он является первым элементом (величиной) в критериях MAGIC . Стандартное отклонение размера эффекта имеет решающее значение, поскольку она показывает , сколько неопределенности включается в измерении. Слишком большое стандартное отклонение сделает измерение практически бессмысленным. В метаанализе, где целью является объединение нескольких размеров эффекта, неопределенность в размере эффекта используется для взвешивания размеров эффекта, так что крупные исследования считаются более важными, чем небольшие исследования. Неопределенность в величине эффекта рассчитывается по-разному для каждого типа величины эффекта, но обычно требуется только знание размера выборки исследования ( N) или количество наблюдений ( n ) в каждой группе.

Отчетность о величине эффекта или его оценках (оценка эффекта [EE], оценка эффекта) считается хорошей практикой при представлении результатов эмпирических исследований во многих областях. [3] [4] Сообщение о величине эффекта облегчает интерпретацию важности результата исследования в отличие от его статистической значимости . [5] Размеры эффекта особенно важны в социальных науках и медицинских исследованиях (где важна величина лечебного эффекта ).

Величина эффекта может быть измерена в относительном или абсолютном выражении. По относительной величине эффекта две группы напрямую сравниваются друг с другом, как по соотношению шансов и относительному риску . Для абсолютных размеров эффекта большее абсолютное значение всегда указывает на более сильный эффект. Многие типы измерений могут быть выражены как абсолютные или относительные, и их можно использовать вместе, поскольку они несут разную информацию. Видная рабочая группа в сообществе исследователей психологии сделала следующую рекомендацию:

Всегда представляйте величину эффекта для первичных результатов ... Если единицы измерения значимы на практическом уровне (например, количество выкуриваемых сигарет в день), то мы обычно предпочитаем нестандартный показатель (коэффициент регрессии или среднее различие) стандартизованному показателю. ( r или d ). [3]

Обзор [ править ]

Размеры эффекта популяции и выборки [ править ]

Как и при статистической оценке , истинный размер эффекта отличается от наблюдаемого размера эффекта, например, для измерения риска заболевания в популяции (размер эффекта популяции) можно измерить риск в пределах выборки этой популяции (размер эффекта выборки) . Условные обозначения для описания истинных и наблюдаемых величин эффекта следуют стандартной статистической практике - один из распространенных подходов - использовать греческие буквы, такие как ρ, для обозначения параметров совокупности и латинские буквы, такие как r, для обозначения соответствующей статистики. В качестве альтернативы, «шляпа» может быть помещена над параметром совокупности для обозначения статистики, например, так как это оценка параметра .

Как и в любой статистической настройке, величина эффекта оценивается с ошибкой выборки и может быть смещена, если только используемый оценщик величины эффекта не соответствует способу выборки данных и способу проведения измерений. Примером этого является систематическая ошибка публикации , которая возникает, когда ученые сообщают о результатах только в том случае, если предполагаемая величина эффекта велика или статистически значима. В результате, если многие исследователи проводят исследования с низкой статистической мощностью, сообщаемые размеры эффекта будут иметь тенденцию быть больше, чем истинные (популяционные) эффекты, если таковые имеются. [6]Другой пример, когда величина эффекта может быть искажена, - это эксперимент с несколькими испытаниями, где вычисление величины эффекта основано на усредненном или агрегированном ответе по испытаниям. [7]

Отношение к тестовой статистике [ править ]

Величина эффекта на основе выборки отличается от статистики теста, используемой при проверке гипотез, тем, что они оценивают силу (величину), например, очевидной взаимосвязи, а не присваивают уровень значимости, отражающий, может ли величина наблюдаемой взаимосвязи быть обусловлена к случаю. Размер эффекта напрямую не определяет уровень значимости, и наоборот. При достаточно большом размере выборки ненулевое статистическое сравнение всегда будет показывать статистически значимый результат, если только размер эффекта популяции не равен нулю (и даже там он будет показывать статистическую значимость со скоростью используемой ошибки типа I). Например, пример корреляции Пирсонакоэффициент 0,01 является статистически значимым , если размер выборки составляет 1000. Отчетность только значительный р -значение из этого анализа можно было бы ввести в заблуждение , если корреляция 0,01 слишком мала , чтобы представлять интерес в конкретном приложении.

Стандартизированные и нестандартные размеры эффектов [ править ]

Термин « размер эффекта» может относиться к стандартизированной мере эффекта (например, r , d Коэна или отношение шансов ) или к нестандартной мере (например, разнице между средними значениями группы или нестандартизованными коэффициентами регрессии). Стандартизированные меры величины эффекта обычно используются, когда:

  • метрики изучаемых переменных не имеют внутреннего значения (например, результат теста личности по произвольной шкале),
  • результаты нескольких исследований объединяются,
  • в некоторых или во всех исследованиях используются разные шкалы, или
  • желательно передать размер эффекта по отношению к изменчивости популяции.

В мета-анализах стандартизованная величина эффекта используется в качестве общей меры, которую можно рассчитать для различных исследований и затем объединить в общую сводку.

Интерпретация [ править ]

Следует ли интерпретировать размер эффекта как малый, средний или большой, зависит от его основного контекста и его рабочего определения. Традиционные критерии Коэна малый , средний или большой [8] почти повсеместны во многих областях, хотя Коэн [8] предостерег:

«Термины« малый »,« средний »и« большой »относятся не только друг к другу, но и к области поведенческой науки или, в частности, к конкретному содержанию и методу исследования, используемому в любом данном исследовании. ... Перед лицом этой относительности существует определенный риск, связанный с предложением традиционных рабочих определений для этих терминов для использования в энергетическом анализе в такой разнообразной области исследований, как бихевиористская наука. Тем не менее, этот риск принимается, поскольку можно получить, чем потерять, предоставив общую общепринятую систему отсчета, которую рекомендуется использовать только в том случае, если нет лучшей основы для оценки индекса ES ". (стр.25)

В макете двух выборок Савиловский [9] пришел к выводу, что «на основе текущих результатов исследований в прикладной литературе кажется целесообразным пересмотреть практические правила для размеров эффекта», принимая во внимание предостережения Коэна, и расширил описания, включив в них очень маленькие , очень большой и огромный . Такие же стандарты де-факто могут быть разработаны для других макетов.

Lenth [10], отмеченный «средним» размером эффекта, «вы выберете одно и то же n независимо от точности или надежности вашего инструмента, узости или разнообразия ваших объектов. Очевидно, что здесь игнорируются важные соображения. должны интерпретировать существенную значимость своих результатов, обосновывая их в значимом контексте или путем количественной оценки их вклада в знания, а описания величины эффекта Коэна могут быть полезны в качестве отправной точки ». [5]Точно так же в отчете, спонсируемом Министерством образования США, говорится: «Широко распространенное неизбирательное использование общих малых, средних и больших величин эффекта Коэна для характеристики размеров эффекта в областях, к которым его нормативные значения не применяются, также неуместно и вводит в заблуждение». [11]

Они предположили, что «подходящими нормами являются нормы, основанные на распределении размеров эффекта для сопоставимых показателей результатов сопоставимых вмешательств, направленных на сопоставимые выборки». Таким образом, если исследование в области, где большинство вмешательств являются крошечными, дало небольшой эффект (по критериям Коэна), эти новые критерии назвали бы его «большим». По теме, см . Парадокс Абельсона и парадокс Савиловского. [12] [13] [14]

Типы [ править ]

Известно от 50 до 100 различных мер величины эффекта. Многие величины эффекта разных типов могут быть преобразованы в другие типы, поскольку многие оценивают разделение двух распределений, поэтому они связаны математически. Например, коэффициент корреляции можно преобразовать в d Коэна и наоборот.

Семейство корреляций: размеры эффекта на основе «объясненной дисперсии» [ править ]

Эти величины эффекта оценивают величину дисперсии в эксперименте, которая «объясняется» или «учитывается» моделью эксперимента ( объясненная вариация ).

Пирсона r или коэффициент корреляции [ править ]

Корреляция Пирсона , часто обозначаемая r и введенная Карлом Пирсоном , широко используется в качестве величины эффекта, когда доступны парные количественные данные; например, если кто-то изучает взаимосвязь между массой тела при рождении и продолжительностью жизни. Коэффициент корреляции также можно использовать, когда данные являются двоичными. Значение r Пирсона может изменяться по величине от -1 до 1, где -1 указывает на идеальную отрицательную линейную связь, 1 указывает на идеальную положительную линейную связь, а 0 указывает на отсутствие линейной связи между двумя переменными. Коэн дает следующие рекомендации для социальных наук: [8] [15]

Коэффициент детерминации ( r 2 или R 2 ) [ править ]

Соответствующая величина эффекта - это r 2 , коэффициент детерминации (также называемый R 2 или « r- квадрат»), вычисляемый как квадрат корреляции Пирсона r . В случае парных данных это мера доли дисперсии, разделяемой двумя переменными, и изменяется от 0 до 1. Например, при r 0,21 коэффициент детерминации составляет 0,0441, что означает, что 4,4% дисперсия одной переменной делится с другой переменной. Значение r 2 всегда положительно, поэтому не передает направление корреляции между двумя переменными.

Эта-квадрат ( η 2 ) [ править ]

Эта-квадрат описывает отношение дисперсии, объясненное в зависимой переменной предиктором с учетом других предикторов, что делает его аналогом r 2 . Эта-квадрат - это смещенная оценка дисперсии, объясняемой моделью в генеральной совокупности (она оценивает только размер эффекта в выборке). Эта оценка имеет ту же слабость, что и r 2, что каждая дополнительная переменная автоматически увеличивает значение η 2 . Кроме того, он измеряет объясненную дисперсию для выборки, а не для генеральной совокупности, что означает, что он всегда будет переоценивать размер эффекта, хотя смещение уменьшается по мере увеличения выборки.

Омега-квадрат (ω 2 ) [ править ]

Менее предвзятая оценка дисперсии, объясняемой в совокупности, - это ω 2 [16]

Эта форма формулы ограничена анализом между субъектами с одинаковым размером выборки во всех ячейках. [16] Так как менее смещена (хотя и не ип смещение), ω 2 является предпочтительным , чтобы п 2 ; однако для сложных анализов это может быть более неудобно. Обобщенная форма оценщика была опубликована для межпредметного и внутрипредметного анализа, повторных измерений, смешанного дизайна и экспериментов с рандомизированным блочным дизайном. [17] Кроме того, были опубликованы методы расчета частичного ω 2 для отдельных факторов и комбинированных факторов в планах с тремя независимыми переменными. [17]

Коэна ƒ 2 [ править ]

Коэна ƒ 2 является одним из нескольких мер размера эффекта для использования в контексте F-тест для ANOVA или множественной регрессии . Величина его смещения (завышенная оценка величины эффекта для ANOVA) зависит от смещения его основного измерения объясненной дисперсии (например, R 2 , η 2 , ω 2 ).

Ƒ 2 Эффект мера размера для множественной регрессии определяется следующим образом:

где R 2 - квадрат множественной корреляции .

Аналогично, ƒ 2 можно определить как:

или же
для моделей, описываемых этими мерами размера эффекта. [18]

Мера величины эффекта для последовательной множественной регрессии , а также общие для моделирования PLS [19] , определяются как:

где R 2 представляет собой дисперсию приходится на набор из одного или нескольких независимых переменных A , и R 2 АВ представляет собой суммарную дисперсию приходится на А , а другой набор из одного или нескольких независимых переменных , представляющих интерес B . Условно, ƒ 2 величины эффекта , и называются малым , средним и большим соответственно. [8]

Коэна также можно найти для факторного дисперсионного анализа (ANOVA), работающего в обратном направлении, используя:

В сбалансированном дизайне (эквивалентные размеры выборки по группам) ANOVA соответствующий параметр генеральной совокупности равен

где μ j обозначает среднее значение совокупности в j- й группе из общего числа K групп, а σ - эквивалентные стандартные отклонения совокупности внутри каждой группы. SS - это сумма квадратов в ANOVA.

Q Коэна [ править ]

Другой показатель, который используется с различиями корреляции, - это коэффициент Коэна q. Это разница между двумя преобразованными Фишером коэффициентами регрессии Пирсона. В символах это

где r 1 и r 2 - сравниваемые регрессии. Ожидаемое значение q равно нулю, а его дисперсия равна

где N 1 и N 2 - количество точек данных в первой и второй регрессии соответственно.

Семейство различий: размеры эффекта на основе различий между средними [ править ]

Графики гауссовых плотностей, иллюстрирующие различные значения d Коэна.

Величина эффекта (популяции) θ, основанная на средних значениях, обычно учитывает стандартизованную разницу средних значений между двумя популяциями [20] : 78

где μ 1 - среднее значение для одной популяции, μ 2 - среднее значение для другой популяции, а σ - стандартное отклонение, основанное на одной или обеих популяциях.

На практике значения генеральной совокупности обычно неизвестны и должны оцениваться на основе статистики выборки. Несколько вариантов величины эффекта на основе средних различаются в зависимости от того, какая статистика используется.

Эта форма для размера эффекта напоминает вычисление для статистики t- критерия с той критической разницей, что статистика t- критерия включает коэффициент . Это означает, что для данного размера эффекта уровень значимости увеличивается с размером выборки. В отличие от статистики t- критерия, величина эффекта направлена ​​на оценку параметра совокупности и не зависит от размера выборки.

Коэна d [ редактировать ]

D Коэна определяется как разница между двумя средними, деленная на стандартное отклонение данных, т. Е.

Джейкоб Коэн определил s , объединенное стандартное отклонение , как (для двух независимых выборок): [8] : 67

где дисперсия для одной из групп определяется как

и то же самое для другой группы.

В приведенной ниже таблице содержатся дескрипторы для величин d = 0,01–2,0, как первоначально было предложено Коэном и расширено Савиловским. [9]

Другие авторы выбирают несколько иное вычисление стандартного отклонения, когда ссылаются на « d Коэна », где знаменатель без «-2» [21] [22] : 14

Это определение « d Коэна » названо Хеджесом и Олкиным оценкой максимального правдоподобия [20], и оно связано с коэффициентом масштабирования хеджирования g (см. Ниже).

С двумя парными выборками мы смотрим на распределение баллов разницы. В этом случае s - стандартное отклонение этого распределения баллов разницы. Это создает следующую взаимосвязь между t-статистикой для проверки различия средних значений двух групп и d Коэна :

и

Коэффициент Коэна d часто используется при оценке размеров выборки для статистического тестирования. Более низкий d Коэна указывает на необходимость большего размера выборки, и наоборот, что впоследствии может быть определено вместе с дополнительными параметрами желаемого уровня значимости и статистической мощности . [23]

Glass 'Δ [ править ]

В 1976 году Джин В. Гласс предложил оценку величины эффекта, в которой используется только стандартное отклонение второй группы [20] : 78

Вторую группу можно рассматривать как контрольную, и Гласс утверждал, что если бы несколько обработок сравнивали с контрольной группой, было бы лучше использовать только стандартное отклонение, вычисленное из контрольной группы, чтобы размеры эффекта не различались бы при одинаковых значениях. и разные отклонения.

При правильном предположении о равных дисперсиях совокупности объединенная оценка σ будет более точной.

Хеджеса г [ править ]

G Hedges , предложенный Ларри Хеджесом в 1981 году [24] , похож на другие меры, основанные на стандартизированной разнице [20] : 79

где объединенное стандартное отклонение рассчитывается как:

Однако в качестве оценки величины эффекта популяции θ это смещение . Тем не менее, это смещение можно приблизительно исправить, умножив на коэффициент

Хеджес и Olkin ссылка на это менее смещенную оценку , как д , [20] , но это не то же самое , как Коэн д . Точная форма поправочного коэффициента J () включает гамма-функцию [20] : 104

Ψ, среднеквадратичный стандартизованный эффект [ править ]

Аналогичный оценщик величины эффекта для множественных сравнений (например, ANOVA ) представляет собой стандартизованный эффект Ψ среднеквадратического значения. [18] По сути, это сводная разница всей модели, скорректированная на среднеквадратическое значение, аналогично d или g . Простейшая формула для Ψ, подходящая для одностороннего дисперсионного анализа, следующая:

Кроме того, дано обобщение для многофакторных планов. [18]

Распределение размеров эффекта по средним [ править ]

При условии, что данные распределены по Гауссу и масштабированы по шкале Хеджеса g , следует нецентральному t- распределению с параметром нецентральности и ( n 1  +  n 2  - 2) степенями свободы. Аналогично, масштабированная Δ Glass 'распределена с n 2  - 1 степенями свободы.

Из распределения можно вычислить математическое ожидание и дисперсию размеров эффекта.

В некоторых случаях используются большие выборочные приближения для дисперсии. Одно из предположений о дисперсии несмещенной оценки Хеджеса [20] : 86

Другие показатели [ править ]

Расстояние Махаланобиса (D) - это многомерное обобщение d Коэна, которое учитывает отношения между переменными. [25]

Категориальное семейство: размеры эффекта для ассоциаций между категориальными переменными [ править ]

Обычно используемые меры ассоциации для теста хи-квадрат являются коэффициент Фи и Крамера «ы V (иногда называют фи Крамера и обозначается как φ с ). Phi связана с коэффициентом точечной бисериальной корреляции и d Коэна и оценивает степень взаимосвязи между двумя переменными (2 × 2). [26] V Крамера можно использовать с переменными, имеющими более двух уровней.

Phi можно вычислить, найдя квадратный корень из статистики хи-квадрат, деленный на размер выборки.

Точно так же V Крамера вычисляется путем извлечения квадратного корня из статистики хи-квадрат, деленного на размер выборки и длину минимального измерения ( k - меньшее из числа строк r или столбцов  c ).

φ c - это взаимная корреляция двух дискретных переменных [27] и может быть вычислена для любого значения r или c . Однако, поскольку значения хи-квадрат имеют тенденцию увеличиваться с увеличением количества ячеек, чем больше разница между r и c , тем более вероятно, что V будет стремиться к 1 без убедительных доказательств значимой корреляции.

V Крамера также может применяться к моделям хи-квадрат «согласия» (т. Е. Тем, у которых c  = 1). В этом случае он функционирует как мера тенденции к единственному результату (т.е. из k результатов). В таком случае необходимо использовать г для к , для того , чтобы сохранить от 0 до 1 диапазонов  V . В противном случае использование c уменьшило бы уравнение до уравнения для Phi.

Коэна w [ править ]

Другой мерой величины эффекта, используемой для тестов хи-квадрат, является коэффициент Коэна w . Это определяется как

где p 0 i - значение i- й ячейки под H 0 , p 1 i - значение i- й ячейки под H 1, а m - количество ячеек.

Соотношение шансов [ править ]

Отношение шансов (OR) - еще один полезный размер эффекта. Это уместно, когда исследовательский вопрос фокусируется на степени связи между двумя бинарными переменными. Например, рассмотрим изучение орфографии. В контрольной группе два ученика сдают класс на каждого, кто проигрывает, поэтому шансы сдать экзамен составляют два к одному (или 2/1 = 2). В экспериментальной группе шесть учеников сдают экзамен на каждого, кто проигрывает, так что шансы сдать экзамен равны шести к одному (или 6/1 = 6). Величину эффекта можно рассчитать, отметив, что шансы успешного прохождения теста в экспериментальной группе в три раза выше, чем в контрольной группе (поскольку 6 разделить на 2 равно 3). Следовательно, отношение шансов равно 3. Статистика отношения шансов находится на другой шкале, чем d Коэна , поэтому эта цифра «3» несопоставима с d Коэна. из 3.

Относительный риск [ править ]

Относительный риск (ОР), также называемый коэффициент риска, просто риск (вероятность) наступления события относительно некоторой независимой переменной. Эта мера величины эффекта отличается от отношения шансов тем, что сравнивает вероятности, а не шансы , но асимптотически приближается к последнему для малых вероятностей. Используя приведенный выше пример, вероятность успешного прохождения экзамена в контрольной группе и группе лечения составляет 2/3 (или 0,67) и 6/7 (или 0,86) соответственно. Величину эффекта можно вычислить так же, как указано выше, но используя вместо этого вероятности. Следовательно, относительный риск равен 1,28. Поскольку использовались довольно большие вероятности паса, существует большая разница между относительным риском и отношением шансов. Имелнеудача (меньшая вероятность) использовалась в качестве события (а не прохождения ), разница между двумя измерениями величины эффекта не будет такой большой.

Хотя оба показателя полезны, они используются в статистике по-разному. В медицинских исследованиях отношение шансов обычно используется для исследований случай-контроль , поскольку обычно оцениваются шансы, но не вероятности. [28] Относительный риск обычно используется в рандомизированных контролируемых испытаниях и когортных исследованиях , но относительный риск способствует переоценке эффективности вмешательств. [29]

Разница в рисках [ править ]

Разность рисков (РР), который иногда называют снижение абсолютного риска, просто разница в риск (вероятность) события между двумя группами. Это полезный показатель в экспериментальных исследованиях, поскольку RD сообщает вам, в какой степени экспериментальное вмешательство изменяет вероятность события или результата. Используя приведенный выше пример, вероятность успешного прохождения контрольной группы и группы лечения составляет 2/3 (или 0,67) и 6/7 (или 0,86) соответственно, поэтому величина эффекта RD составляет 0,86 - 0,67 = 0,19 (или 19%). RD - лучший показатель для оценки эффективности вмешательств. [29]

Коэна h [ править ]

Одним из показателей, используемых в анализе мощности при сравнении двух независимых пропорций, является коэффициент Коэна  h . Это определяется следующим образом

где p 1 и p 2 - пропорции двух сравниваемых выборок, а arcsin - преобразование арксинуса.

Размер общеязыкового эффекта [ править ]

Чтобы упростить описание значения размера эффекта людям, не имеющим отношения к статистике, размер общеязыкового эффекта, как следует из названия, был разработан для передачи его на простом английском языке. Он используется для описания разницы между двумя группами и был предложен и назван Кеннетом МакГроу и С.П. Вонгом в 1992 году. [30] Они использовали следующий пример (о росте мужчин и женщин): «в любой случайной паре. для молодых взрослых мужчин и женщин, вероятность того, что мужчина будет выше, чем женщина, составляет 0,92, или, проще говоря, в 92 из 100 свиданий вслепую среди молодых взрослых мужчина будет выше, чем женщина », [30 ] при описании популяционного значения величины эффекта общеязыкового общения.

Значение генеральной совокупности для размера эффекта общеязыкового общения часто сообщается таким образом в виде пар, случайно выбранных из совокупности. Керби (2014) отмечает, что пара , определяемая как оценка в одной группе в паре с оценкой в ​​другой группе, является основной концепцией величины эффекта общего языка. [31]

В качестве другого примера рассмотрим научное исследование (возможно, лечения какого-либо хронического заболевания, такого как артрит) с участием десяти человек в группе лечения и десяти человек в группе контроля. Если всех в экспериментальной группе сравнить со всеми в контрольной группе, то получится (10 × 10 =) 100 пар. В конце исследования результат оценивается в баллах для каждого человека (например, по шкале подвижности и боли в случае исследования артрита), а затем все баллы сравниваются между парами. Результат, выраженный в процентах пар, поддерживающих гипотезу, представляет собой размер эффекта общеязыкового общения. В примере исследования это могло бы быть (скажем) 0,80, если 80 из 100 пар сравнения показывают лучший результат для экспериментальной группы, чем контрольная группа, и отчет может быть следующим: "Когда пациента в экспериментальной группе сравнивали с пациентом в контрольной группе, в 80 из 100 пар получавший лечение пациент показал лучший результат лечения ». Значение выборки, например, в подобном исследовании, является объективной оценкой ценность населения.[32]

Варга и Делани обобщили размер общеязыкового эффекта (Варга-Делани A ), чтобы охватить данные порядкового уровня. [33]

Ранг-бисериальная корреляция [ править ]

Размер эффекта, связанный с размером эффекта общего языка, представляет собой ранговую бисериальную корреляцию. Этот показатель был введен Кюретоном в качестве величины эффекта для U- критерия Манна – Уитни . [34] То есть есть две группы, и оценки для групп были преобразованы в ранги. Формула простой разности Керби вычисляет ранговую бисериальную корреляцию из величины общеязыкового эффекта. [31] Если принять f как долю пар, благоприятных для гипотезы (размер эффекта общего языка), и позволить u быть долей пар, не подходящих для данной гипотезы, бисериал ранга r представляет собой простую разницу между двумя пропорциями:  r  =  f  -  ты. Другими словами, корреляция - это разница между величиной общеязыкового эффекта и его дополнением. Например, если размер общеязыкового эффекта составляет 60%, то бисериал ранга r равен 60% минус 40%, или  r  = 0,20. Формула Керби является направленной, с положительными значениями, указывающими, что результаты подтверждают гипотезу.

Ненаправленная формула для рангово-бисериальной корреляции была предоставлена ​​Вендтом, так что корреляция всегда положительна. [35] Преимущество формулы Вендта заключается в том, что ее можно вычислить с использованием информации, которая имеется в опубликованных статьях. В формуле используется только тестовое значение U из U-критерия Манна-Уитни и размеры выборки двух групп: r  = 1 - (2 U ) / ( n 1  n 2 ). Обратите внимание, что U определяется здесь согласно классическому определению как меньшее из двух значений U, которые могут быть вычислены на основе данных. Это гарантирует, что 2 U  <  n 1 n 2 , поскольку n1 n 2 - максимальное значение U- статистики .

Пример может проиллюстрировать использование двух формул. Рассмотрим исследование здоровья двадцати пожилых людей, десять из которых были в группе лечения и десять в контрольной группе; следовательно, существует десять умноженных на десять или 100 пар. В программе здоровья используются диета, упражнения и добавки для улучшения памяти, а память измеряется с помощью стандартизированного теста. U- тест Манна-Уитни показывает, что взрослый в экспериментальной группе имел лучшую память в 70 из 100 пар и худшую память в 30 парах. U Манна-Уитни меньше 70 и 30, поэтому U = 30. Корреляция между памятью и эффективностью лечения по формуле простой разности Керби составляет r  = (70/100) - (30/100) = 0,40. Корреляция по формуле Вендта равна r = 1 - (2 · 30) / (10 · 10) = 0,40.

Размер эффекта для порядковых данных [ править ]

Дельта Клиффа или , первоначально разработанная Норманом Клиффом для использования с порядковыми данными, [36] - это мера того, насколько часто значения в одном распределении превышают значения во втором распределении. Что особенно важно, это не требует каких-либо предположений о форме или разбросе двух распределений.

Выборочная оценка определяется как:

где два распределения имеют размер и с элементами и , соответственно, и - скобка Айверсона , которая равна 1, когда содержимое истинно, и 0, если ложно.

линейно связана со статистикой U Манна – Уитни ; однако он улавливает направление разницы в своем знаке. Учитывая Манн-Уитни , это:

Доверительные интервалы по параметрам нецентральности [ править ]

Доверительные интервалы стандартизованных величин эффекта, особенно Коэна и , основываются на вычислении доверительных интервалов параметров нецентральности ( ncp ). Обычный подход к построению доверительного интервала ncp состоит в том, чтобы найти критические значения ncp, которые соответствуют наблюдаемой статистике хвостовых квантилей α / 2 и (1 -  α / 2). Пакет MBESS для SAS и R предоставляет функции для поиска критических значений ncp .

t -тест для средней разницы одной группы или двух связанных групп [ править ]

Для отдельной группы M обозначает среднее значение выборки, μ среднее значение генеральной совокупности, SD стандартное отклонение выборки, σ стандартное отклонение совокупности, а n - размер выборки группы. Значение t используется для проверки гипотезы о разнице между средним значением и базовой  линией μ baseline . Обычно μ baseline равна нулю. В случае двух связанных групп, одна группа строится по различиям в паре выборок, тогда как SD и σ обозначают стандартные отклонения различий выборки и совокупности, а не внутри исходных двух групп.

и Коэна

точечная оценка

Так,

t -тест для средней разницы между двумя независимыми группами [ править ]

n 1 или n 2 - соответствующие размеры выборки.

в которой

и Коэна

точечная оценка

Так,

Односторонний тест ANOVA для средней разницы между несколькими независимыми группами [ править ]

Односторонний тест ANOVA применяет нецентральное F-распределение . В то время как с заданным стандартным отклонением населения , тот же вопрос теста применяется к нецентральному распределению хи-квадрат .

Для каждого j-го образца в i -й группе X i , j обозначим

Пока,

Итак, как ncp ( s ) из F, так и приравниваются

В случае для K независимых групп одинакового размера, общий размер выборки N  : =  N · К .

Т -test для пары независимых групп является частным случаем одностороннего ANOVA. Заметим , что параметр нецентральности из F не сравнима с параметром нецентральности соответствующего т . Собственно , и .

См. Также [ править ]

  • Статистика оценок
  • Статистическая значимость
  • Z-фактор , альтернативная мера величины эффекта

Ссылки [ править ]

  1. ^ Келли, Кен; Проповедник, Кристофер Дж. (2012). «О размере эффекта». Психологические методы . 17 (2): 137–152. DOI : 10.1037 / a0028086 . PMID  22545595 . S2CID  34152884 .
  2. ^ Розенталь, Роберт, Х. Купер и Л. Хеджес. «Параметрические меры величины эффекта». Справочник по синтезу исследований 621 (1994): 231–244. ISBN 978-0871541635 
  3. ^ a b Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах: рекомендации и пояснения». Американский психолог . 54 (8): 594–604. DOI : 10.1037 / 0003-066X.54.8.594 .
  4. Накагава, Шиничи; Катхилл, Иннес С. (2007). «Размер эффекта, доверительный интервал и статистическая значимость: практическое руководство для биологов». Биологические обзоры Кембриджского философского общества . 82 (4): 591–605. DOI : 10.1111 / j.1469-185X.2007.00027.x . PMID 17944619 . S2CID 615371 .  
  5. ^ а б Эллис, Пол Д. (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Издательство Кембриджского университета. ISBN 978-0-521-14246-5.[ требуется страница ]
  6. Перейти ↑ Brand A, Bradley MT, Best LA, Stoica G (2008). «Точность оценок величины эффекта из опубликованных психологических исследований» (PDF) . Перцептивные и моторные навыки . 106 (2): 645–649. DOI : 10.2466 / PMS.106.2.645-649 . PMID 18556917 . S2CID 14340449 . Архивировано из оригинального (PDF) 17 декабря 2008 года . Проверено 31 октября 2008 .   
  7. Перейти ↑ Brand A, Bradley MT, Best LA, Stoica G (2011). «Множественные испытания могут дать завышенные оценки величины эффекта» (PDF) . Журнал общей психологии . 138 (1): 1–11. DOI : 10.1080 / 00221309.2010.520360 . PMID 21404946 . S2CID 932324 .   
  8. ^ a b c d e f g h Коэн, Джейкоб (1988). Статистический анализ мощности для поведенческих наук . Рутледж. ISBN 978-1-134-74270-7.
  9. ^ а б в г е Савиловский, S (2009). «Новые эмпирические правила размера эффекта» . Журнал современных прикладных статистических методов . 8 (2): 467–474. DOI : 10.22237 / jmasm / 1257035100 . http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/
  10. ^ Рассел В. Лент. «Java-апплеты для мощности и размера выборки» . Отделение математических наук, Колледж гуманитарных наук или Университет Айовы . Проверено 8 октября 2008 .
  11. ^ Липси, MW; и другие. (2012). Перевод статистического представления результатов образовательных мероприятий в более понятные формы (PDF) . США: Департамент образования США, Национальный центр исследований в области специального образования, Институт педагогических наук, NCSER 2013–3000.
  12. ^ Sawilowsky, С. С. (2005). «Парадокс Абельсона и эксперимент Майкельсона-Морли» . Журнал современных прикладных статистических методов . 4 (1): 352. DOI : 10,22237 / jmasm / 1114907520 .
  13. ^ Савиловский, S .; Sawilowsky, J .; Гриссом, Р.Дж. (2010). «Размер эффекта». В Ловриче, М. (ред.). Международная энциклопедия статистической науки . Springer.
  14. ^ Савиловский, С. (2003). «Деконструирование аргументов из доводов против проверки гипотез» . Журнал современных прикладных статистических методов . 2 (2): 467–474. DOI : 10.22237 / jmasm / 1067645940 .
  15. ^ Коэн, J (1992). «Силовой праймер». Психологический бюллетень . 112 (1): 155–159. DOI : 10.1037 / 0033-2909.112.1.155 . PMID 19565683 . 
  16. ^ a b Табачник, Б.Г. и Фиделл, Л.С. (2007). Глава 4: «Очистка вашего поступка. Проверка данных перед анализом», с. 55 В Б. Г. Табачник и Л. С. Фиделл (ред.), Использование многомерной статистики , пятое издание. Бостон: Pearson Education, Inc. / Аллин и Бэкон.
  17. ^ а б Олейник, С .; Альгина, Дж. (2003). «Обобщенная статистика по этой и омега-квадрату: меры величины эффекта для некоторых общих исследовательских проектов» (PDF) . Психологические методы . 8 (4): 434–447. DOI : 10.1037 / 1082-989x.8.4.434 . PMID 14664681 .  
  18. ^ a b c Steiger, JH (2004). «За пределами критерия F: доверительные интервалы размера эффекта и тесты на близкое соответствие в анализе дисперсии и контрастного анализа» (PDF) . Психологические методы . 9 (2): 164–182. DOI : 10.1037 / 1082-989x.9.2.164 . PMID 15137887 .  
  19. ^ Волосы, J .; Халт, ТМ; Рингл, С.М. и Сарстедт, М. (2014) Букварь по моделированию структурных уравнений методом неполных наименьших квадратов (PLS-SEM) , Sage, стр. 177–178. ISBN 1452217440 
  20. ^ Б с д е е г Ларри В. Hedges & Ingram Olkin (1985). Статистические методы метаанализа . Орландо: Academic Press . ISBN 978-0-12-336380-0.
  21. ^ Роберт Э. МакГрат; Грегори Дж. Мейер (2006). «Когда масштабы эффекта расходятся: случай r и d» (PDF) . Психологические методы . 11 (4): 386–401. CiteSeerX 10.1.1.503.754 . DOI : 10.1037 / 1082-989x.11.4.386 . PMID 17154753 . Архивировано из оригинального (PDF) 08.10.2013 . Проверено 30 июля 2014 .   
  22. ^ Хартунг, Иоахим; Кнапп, Гвидо; Синха, Бимал К. (2008). Статистический мета-анализ с приложениями . Джон Вили и сыновья. ISBN 978-1-118-21096-3.
  23. ^ Кенни, Дэвид А. (1987). «Глава 13» (PDF) . Статистика для социальных и поведенческих наук . Маленький, Браун. ISBN  978-0-316-48915-7.
  24. ^ Ларри В. Хеджес (1981). "Теория распределения для оценки Гласса величины эффекта и связанных с ней оценок". Журнал образовательной статистики . 6 (2): 107–128. DOI : 10.3102 / 10769986006002107 . S2CID 121719955 . 
  25. ^ Del Giudice, Marco (2013-07-18). «Многовариантные опасения: является ли D достоверной мерой групповых и половых различий?» . Эволюционная психология . 11 (5): 147470491301100. DOI : 10,1177 / 147470491301100511 .
  26. ^ Аарон Б., Kromrey, JD, & Ferron, JM (1998, ноябрь). Приравнивание индексов величины эффекта на основе r и d: Проблемы с обычно рекомендуемой формулой. Документ, представленный на ежегодном собрании Ассоциации исследований в области образования Флориды, Орландо, Флорида. (Номер услуги репродукции документов ERIC ED433353)
  27. ^ Шескин, Дэвид Дж. (2003). Справочник по параметрическим и непараметрическим статистическим процедурам (Третье изд.). CRC Press. ISBN 978-1-4200-3626-8.
  28. ^ Deeks J (1998). «Когда соотношение шансов может ввести в заблуждение?: Отношение шансов следует использовать только в исследованиях случай-контроль и анализе логистической регрессии» . BMJ . 317 (7166): 1155–6. DOI : 10.1136 / bmj.317.7166.1155a . PMC 1114127 . PMID 9784470 .  
  29. ^ а б Стегенга, Дж. (2015). «Измерение эффективности» . Исследования по истории и философии биологических и биомедицинских наук . 54 : 62–71. DOI : 10.1016 / j.shpsc.2015.06.003 . PMID 26199055 . 
  30. ^ а б Макгроу КО, Вонг SP (1992). «Общая статистика размера эффекта». Психологический бюллетень . 111 (2): 361–365. DOI : 10.1037 / 0033-2909.111.2.361 .
  31. ^ Гриссом RJ (1994). «Статистический анализ порядкового категориального статуса после лечения». Журнал консалтинговой и клинической психологии . 62 (2): 281–284. DOI : 10.1037 / 0022-006X.62.2.281 . PMID 8201065 . 
  32. ^ Варга, Андраш; Делани, Гарольд Д. (2000). «Критика и улучшение статистики размера эффекта общего языка CL Макгроу и Вонга». Журнал образовательной и поведенческой статистики . 25 (2): 101–132. DOI : 10.3102 / 10769986025002101 . S2CID 120137017 . 
  33. ^ Cureton, Е. Е. (1956). «Рангово-бисериальная корреляция». Психометрика . 21 (3): 287–290. DOI : 10.1007 / BF02289138 . S2CID 122500836 . 
  34. Перейти ↑ Wendt, HW (1972). «Решение общей проблемы в социальных науках: упрощенный ранг-бисериальный коэффициент корреляции на основе статистики U». Европейский журнал социальной психологии . 2 (4): 463–465. DOI : 10.1002 / ejsp.2420020412 .
  35. ^ Клифф, Норман (1993). «Статистика доминирования: порядковый анализ, чтобы ответить на порядковые вопросы». Психологический бюллетень . 114 (3): 494–509. DOI : 10.1037 / 0033-2909.114.3.494 .

Дальнейшее чтение [ править ]

  • Аарон Б., Кромри Дж. Д. и Феррон Дж. М. (1998, ноябрь). Приравнивание индексов величины эффекта на основе r и d: проблемы с обычно рекомендуемой формулой. Документ, представленный на ежегодном собрании Ассоциации исследований в области образования Флориды, Орландо, Флорида. (Номер услуги репродукции документов ERIC ED433353)
  • Бонетт, Д.Г. (2008). «Доверительные интервалы для стандартизованных линейных контрастов средних». Психологические методы . 13 (2): 99–109. DOI : 10.1037 / 1082-989x.13.2.99 . PMID  18557680 .
  • Бонетт, Д.Г. (2009). «Оценка стандартизированных линейных контрастов средних значений с желаемой точностью». Психологические методы . 14 (1): 1–5. DOI : 10.1037 / a0014270 . PMID  19271844 .
  • Brooks, ME; Далал, Дания; Нолан, КП (2013). «Легче ли понять размеры общеязыкового эффекта, чем традиционные размеры эффекта?». Журнал прикладной психологии . 99 (2): 332–340. DOI : 10.1037 / a0034745 . PMID  24188393 .
  • Камминг, G .; Финч, С. (2001). «Праймер для понимания, использования и расчета доверительных интервалов, основанных на центральном и нецентральном распределениях». Образовательные и психологические измерения . 61 (4): 530–572. DOI : 10.1177 / 0013164401614002 . S2CID  120672914 .
  • Келли, К. (2007). «Доверительные интервалы для стандартизированных размеров эффекта: теория, применение и реализация» . Журнал статистического программного обеспечения . 20 (8): 1–24. DOI : 10,18637 / jss.v020.i08 .
  • Липси, М. В., и Уилсон, Д. Б. (2001). Практический мета-анализ . Sage: Thousand Oaks, CA.

Внешние ссылки [ править ]

Дальнейшие объяснения

  • Размер эффекта (ES)
  • EffectSizeFAQ.com
  • Веб-приложение EstimationStats.com для создания графиков размера эффекта.
  • Измерение величины эффекта
  • Вычисление и интерпретация показателей размера эффекта с помощью ViSta
  • Пакет effsize для проекта R для статистических вычислений