Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Оценочная статистика - это структура анализа данных, которая использует комбинацию размеров эффекта , доверительных интервалов , планирования точности и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов. [1] Он отличается от проверки значимости нулевой гипотезы (NHST), которая считается менее информативной. [2] [3] Оценочная статистика, или просто оценка , также известна как новая статистика , [3] различие, введенное в области психологии , медицинских исследований., науки о жизни и широкий спектр других экспериментальных наук, где NHST все еще широко распространены [4], несмотря на то, что статистические данные рекомендуются как предпочтительные в течение нескольких десятилетий. [5] [6]

Основная цель методов оценки - сообщить размер эффекта ( точечную оценку ) вместе с его доверительным интервалом , последний из которых связан с точностью оценки. [7] Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники оценки рассматривают сообщение о значении P как бесполезное отвлечение от важного дела по сообщению размера эффекта с его доверительными интервалами [8] и считают, что оценка должна заменить тестирование значимости для анализа данных. [9]

История [ править ]

В физике долгое время использовался метод средневзвешенных значений, аналогичный метаанализу . [10]

Оценка статистики в современной эпохе началась с разработкой стандартизированной величины эффекта по Jacob Cohen в 1960 - х годах. Синтез исследований с использованием оценочной статистики был впервые использован Джином В. Глассом с разработкой метода метаанализа в 1970-х годах. [11] С тех пор методы оценки были усовершенствованы Ларри Хеджесом , Майклом Боренштейном, Дугом Альтманом , Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор , в сочетании с мета-анализа, является связанной с техникой широкого использования в медицинских исследованиях. Сейчас в PubMed имеется более 60 000 ссылок на «метаанализ».. Несмотря на широкое распространение метаанализа, структура оценки до сих пор не используется рутинно в первичных биомедицинских исследованиях. [4]

В 1990-х редактор Кеннет Ротман запретил использование p-значений из журнала Epidemiology ; авторы были на высоком уровне, но это не повлияло на их аналитическое мышление. [12]

В последнее время методы оценки применяются в таких областях, как нейробиология [13], психологическое образование [14] и психология. [15]

В Руководстве по публикациям Американской психологической ассоциации рекомендуется оценка, а не проверка гипотез. [16] В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Не полагайтесь исключительно на статистическую проверку гипотез, такую ​​как значения P, которые не могут передать важную информацию о величине эффекта». [17]

В 2019 году журнал Общества нейробиологии eNeuro ввел политику, рекомендующую использование оценочных графиков в качестве предпочтительного метода представления данных [18]

Методология [ править ]

Многие тесты значимости имеют аналог для оценки; [19] почти в каждом случае результат теста (или его p-значение ) можно просто заменить размером эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95% доверительный интервал . Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R 2 ) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики предостерегают от сообщения лишь нескольких цифр. Скорее рекомендуется анализировать и представлять данные с помощью визуализации данных. [2] [6] [7] Примеры подходящих визуализаций включают диаграмму разброса для регрессии и графики Гарднера-Альтмана для двух независимых групп. [20] В то время как графики групп исторических данных (гистограммы, прямоугольные диаграммы и графики скрипки) не отображают сравнение, графики оценки добавляют вторую ось для явной визуализации размера эффекта. [21]

Заговор Гарднера – Альтмана. Слева: обычная столбиковая диаграмма со звездочками, чтобы показать, что разница является «статистически значимой». Справа: график Гарднера – Альтмана, на котором показаны все точки данных, а также средняя разница и ее доверительные интервалы.

Заговор Гарднера – Альтмана [ править ]

График средней разности Гарднера – Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 году; [20] это статистический график, предназначенный для отображения данных из двух независимых групп. [6] Также существует версия, подходящая для парных данных . Ключевые инструкции для создания этой диаграммы следующие: (1) отображать все наблюдаемые значения для обеих групп рядом; (2) поместите вторую ось справа, смещенную, чтобы показать шкалу средних разностей; и (3) построить среднюю разность с ее доверительным интервалом в виде маркера с планками ошибок. [3] Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием Ggplot2 , seaborn или DABEST.; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение Estimation Stats .

Сюжет Камминга. Отображаются все необработанные данные. Размер эффекта и 95% доверительный интервал нанесены на отдельные оси под необработанными данными. Для каждой группы суммарные измерения (среднее ± стандартное отклонение) показаны в виде линий с промежутками.

Сюжет Камминга [ править ]

Для нескольких групп Джефф Камминг ввел использование вторичной панели для построения двух или более средних разностей и их доверительных интервалов, помещенных под панелью наблюдаемых значений; [3] такая схема позволяет легко сравнивать средние различия («дельты») по нескольким группам данных. Камминг участки могут быть сгенерированы с пакетом ESCI , DABEST , или приложение Оценивание Stats .

Другие методологии [ править ]

Помимо средней разницы, существует множество других типов размера эффекта , все с относительными преимуществами. Основные типы включают размеры эффекта Коэна d-типа и коэффициент детерминации (R 2 ) для регрессионного анализа . Для ненормальных распределений существует ряд более надежных размеров эффекта , включая дельту Клиффа и статистику Колмогорова-Смирнова .

Недостатки при проверке гипотез [ править ]

При проверке гипотез основной целью статистических вычислений является получение p-значения , вероятности увидеть полученный результат или более экстремального результата, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отклонить нулевую гипотезу. Сторонники оценки отвергают обоснованность проверки гипотез [3] [7] по следующим причинам, среди прочего:

  • P-значения легко и часто неправильно интерпретируются. Например, p-значение часто ошибочно воспринимается как «вероятность того, что нулевая гипотеза верна».
  • Нулевая гипотеза всегда неверна для каждого набора наблюдений: всегда есть какой-то эффект, даже если он незначительный. [22]
  • Проверка гипотез дает произвольно дихотомические ответы «да-нет», отбрасывая при этом важную информацию о величине. [23]
  • Любое конкретное значение р возникает за счет взаимодействия с величиной эффекта , на размер выборки ( при прочих равных условиях больший размер выборки дает меньший р-значение) и ошибки выборки. [24]
  • При малой мощности моделирование показывает, что ошибка выборки делает p-значения чрезвычайно непостоянными. [25]

Преимущества оценки статистики [ править ]

Преимущества доверительных интервалов [ править ]

Доверительные интервалы ведут себя предсказуемо. По определению, 95% доверительные интервалы имеют 95% шанс получить среднее значение популяции (μ). Эта функция остается неизменной при увеличении размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95% доверительные интервалы также являются 83% интервалами прогноза: доверительный интервал одного эксперимента имеет 83% вероятность захвата среднего значения любого будущего эксперимента. [3] Таким образом, знание 95% доверительных интервалов одного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих репликационных экспериментов.

Доказательная статистика [ править ]

Психологические исследования восприятия статистики показывают, что оценки интервалов отчетности позволяют получить более точное восприятие данных, чем отчеты p-значений. [26]

Точное планирование [ править ]

Точность оценки формально определяется как 1 / дисперсия , и, как и мощность, увеличивается (улучшается) с увеличением размера выборки. Как и мощность , высокая точность стоит дорого; Заявки на исследовательские гранты в идеале должны включать анализ точности / стоимости. Сторонники оценки считают, что точное планирование должно заменить мощность, поскольку сама статистическая мощность концептуально связана с проверкой значимости. [3]

См. Также [ править ]

  • Размер эффекта
  • Коэна h
  • Оценка интервала
  • Мета-анализ
  • Статистическая значимость

Ссылки [ править ]

  1. ^ Эллис, Пол. «FAQ по размеру эффекта» .
  2. ^ a b Коэн, Джейкоб. «Земля круглая (p <0,05)» (PDF) .
  3. ^ Б с д е е г Cumming, Geoff (2011). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Нью-Йорк: Рутледж. ISBN 978-0415879675.
  4. ^ a b Пуговица, Кэтрин; Джон П.А. Иоаннидис; Клэр Мокрыш; Брайан А. Носек; Джонатан Флинт; Эмма С.Дж. Робинсон; Маркус Р. Мунафо (2013). «Сбой питания: почему небольшой размер выборки подрывает надежность нейробиологии» . Обзоры природы Неврология . 14 (5): 365–76. DOI : 10.1038 / nrn3475 . PMID 23571845 . 
  5. ^ Альтман, Дуглас (1991). Практическая статистика для медицинских исследований . Лондон: Чепмен и Холл.
  6. ^ a b c Дуглас Альтман, изд. (2000). Статистика с уверенностью . Лондон: Уайли-Блэквелл.
  7. ^ a b c Коэн, Джейкоб (1990). «Что я узнал (пока)» . Американский психолог . 45 (12): 1304. DOI : 10.1037 / 0003-066x.45.12.1304 .
  8. Эллис, Пол (31 мая 2010 г.). «Почему я не могу просто судить о своем результате, глядя на значение p?» . Проверено 5 июня 2013 года .
  9. ^ Кларидж-Чанг, Адам; Ассам, Прайсли Н. (2016). «Оценочная статистика должна заменить проверку значимости» . Методы природы . 13 (2): 108–109. DOI : 10.1038 / nmeth.3729 . PMID 26820542 . S2CID 205424566 .  
  10. ^ Хеджес, Ларри (1987). «Как твердая наука, как мягкая наука». Американский психолог . 42 (5): 443. CiteSeerX 10.1.1.408.2317 . DOI : 10.1037 / 0003-066x.42.5.443 . 
  11. ^ Хант, Мортон (1997). Как наука подводит итоги: история метаанализа . Нью-Йорк: Фонд Рассела Сейджа. ISBN 978-0-87154-398-1.
  12. Перейти ↑ Fidler, Fiona (2004). «Редакторы могут привести исследователей к доверительному интервалу, но не могут заставить их задуматься» . Психологическая наука . 15 (2): 119–126. DOI : 10.1111 / j.0963-7214.2004.01502008.x . PMID 14738519 . S2CID 21199094 .  
  13. ^ Йылдызоглу, Тугче; Вайслогель, Ян-Марек; Мохаммад, Фархан; Чан, Эдвин С.-Й .; Assam, Pryseley N .; Кларидж-Чанг, Адам (8 декабря 2015 г.). "Оценка обработки информации в системе памяти: использование метааналитических методов для генетики" . PLOS Genet . 11 (12): e1005718. DOI : 10.1371 / journal.pgen.1005718 . ISSN 1553-7404 . PMC 4672901 . PMID 26647168 .   
  14. ^ Hentschke, Харальд; Майк К. Штюттген (декабрь 2011 г.). «Вычисление мер величины эффекта для наборов данных нейробиологии». Европейский журнал нейробиологии . 34 (12): 1887–1894. DOI : 10.1111 / j.1460-9568.2011.07902.x . PMID 22082031 . 
  15. ^ Камминг, Джефф. «ESCI (Исследовательское программное обеспечение для доверительных интервалов)» .
  16. ^ "Руководство по публикации Американской психологической ассоциации, шестое издание" . Проверено 17 мая 2013 года .
  17. ^ «Единые требования к рукописям, подаваемым в биомедицинские журналы» . Архивировано из оригинального 15 мая 2013 года . Проверено 17 мая 2013 года .
  18. ^ «Изменение способа представления, интерпретации и обсуждения наших результатов, чтобы восстановить доверие к нашим исследованиям» .
  19. ^ Камминг, Джефф; Калин-Ягеман, Роберт (2016). Введение в новую статистику: оценка, открытая наука и не только . Рутледж. ISBN 978-1138825529.
  20. ^ a b Гарднер, MJ; Альтман, Д.Г. (1986-03-15). «Доверительные интервалы, а не значения P: оценка, а не проверка гипотез» . Британский медицинский журнал (под ред. Клинических исследований) . 292 (6522): 746–750. DOI : 10.1136 / bmj.292.6522.746 . ISSN 0267-0623 . PMC 1339793 . PMID 3082422 .   
  21. ^ Хо, Джозес; Тумкая; Ариал; Чой; Кларидж-Чанг (2018). «Выходя за рамки значений P: ежедневный анализ данных с помощью оценочных графиков» . bioRxiv : 377978. дои : 10,1101 / 377978 .
  22. ^ Коэн, Джейкоб (1994). «Земля круглая (p <0,05)». Американский психолог . 49 (12): 997–1003. DOI : 10.1037 / 0003-066X.49.12.997 .
  23. ^ Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Кембридж: Издательство Кембриджского университета.
  24. ^ Дентон Э. Моррисон, Рамон Э. Хенкель, изд. (2006). Противоречие теста значимости: читатель . Aldine Transaction. ISBN 978-0202308791.
  25. ^ Камминг, Джефф. «Танец р ценностей» .
  26. ^ Бейт-Маром, R; Fidler, F .; Камминг, Г. (2008). «Статистическое познание: к научно обоснованной практике в статистике и статистическом образовании». Статистический журнал исследований в области образования . 7 : 20–39.