Почему большинство опубликованных результатов исследований ложны

PDF статьи.

« Почему большинство опубликованных результатов исследований ложны » ^[1] - это эссе 2005 года, написанное Джоном Иоаннидисом , профессором Стэнфордской школы медицины , и опубликованное в журнале PLOS Medicine . Это считается основополагающим в области метанауки .

В своей статье Иоаннидис утверждал, что большое количество, если не большинство, опубликованных медицинских исследовательских работ содержат результаты, которые невозможно воспроизвести . Проще говоря, в эссе говорится, что ученые используют проверку гипотез, чтобы определить, значимы ли научные открытия. «Значимость» формализована с точки зрения вероятности, и один формализованный расчет (« значение P ») сообщается в научной литературе в качестве механизма проверки. Иоаннидис высказал предположения о том, как люди выполняют и сообщают об этих тестах, а затем он построил статистическую модель, которая показывает, что большинство опубликованных результатов являются ложноположительными результатами .

Аргумент [ править ]

Предположим, что в данной области науки существует известная базовая вероятность того, что результат верен, обозначенная как . При проведении исследования вероятность получения положительного результата равна . Учитывая эти два фактора, мы хотим вычислить условную вероятность , известную как положительная прогностическая ценность (PPV). Теорема Байеса позволяет нам вычислить PPV как: ${\ displaystyle \ mathbb {P} ({\ text {True}})}$ ${\ Displaystyle \ mathbb {P} (+)}$ ${\ displaystyle \ mathbb {P} ({\ text {True}} \ mid +)}$

{\ displaystyle \ mathbb {P} ({\ text {True}} \ mid +) = {(1- \ beta) \ mathbb {P} ({\ text {True}}) \ over {(1- \ beta) ) \ mathbb {P} ({\ text {True}}) + \ alpha \ left [1- \ mathbb {P} ({\ text {True}}) \ right]}}}

где - частота ошибок типа I и - частота ошибок типа II ; статистическая мощность является . В большинстве научных исследований принято желать и . Если мы предполагаем для данной области науки, то мы можем вычислить PPV для различных значений и :

{\ displaystyle \ alpha}

{\ displaystyle \ beta}

{\ displaystyle 1- \ beta}

{\ Displaystyle \ альфа = 0,05}

{\ displaystyle \ beta = 0,2}

\mathbb {P} ({\text{True}})=0.1

\alpha

\beta

$\alpha$	0,1	0,2	0,3	0,4	0,5	0,6	0,7	0,8	0,9
	$\beta$
0,01	0,91	0,90	0,89	0,87	0,85	0,82	0,77	0,69	0,53
0,02	0,83	0,82	0,80	0,77	0,74	0,69	0,63	0,53	0,36
0,03	0,77	0,75	0,72	0,69	0,65	0,60	0,53	0,43	0,27
0,04	0,71	0,69	0,66	0,63	0,58	0,53	0,45	0,36	0,22
0,05	0,67	0,64	0,61	0,57	0,53	0,47	0,40	0,31	0,18

Однако простая формула для PPV, полученная из теоремы Байеса, не учитывает предвзятость в дизайне исследования или отчетности. При наличии смещения PPV определяется более общим выражением: $u\in [0,1]$

\mathbb {P} ({\text{True}}|+)={\left[1-(1-u)\beta \right]\mathbb {P} ({\text{True}}) \over {\left[1-(1-u)\beta \right]\mathbb {P} ({\text{True}})+\left[(1-u)\alpha +u\right]\left[1-\mathbb {P} ({\text{True}})\right]}}

Введение предвзятости будет иметь тенденцию снижать PPV; в крайнем случае , когда смещение исследования является максимальным, . Даже если исследование соответствует требованиям к эталону для и и не содержит предвзятости, все равно существует 36% -ная вероятность того, что документ, сообщающий о положительном результате, будет неверным; если базовая вероятность истинного результата ниже, то это также снизит PPV. Кроме того, есть убедительные доказательства того, что средняя статистическая мощность исследования во многих областях науки значительно ниже контрольного уровня 0,8. ^[2]^[3]^[4]

\mathbb {P} ({\text{True}}|+)=\mathbb {P} ({\text{True}})

\alpha

\beta

Учитывая реальность предвзятости, низкой статистической мощности и небольшого количества истинных гипотез, Иоаннидис приходит к выводу, что большинство исследований в различных областях науки, вероятно, будут давать ложные результаты.

Следствия [ править ]

В дополнение к основному результату Иоаннидис перечисляет шесть следствий для факторов, которые могут повлиять на надежность опубликованных исследований:

Чем меньше исследований, проводимых в научной сфере, тем меньше вероятность того, что результаты исследований будут правдой.
Чем меньше размер эффекта в научной области, тем меньше вероятность того, что результаты исследования будут правдой.
Чем больше число и меньше выбор проверенных взаимосвязей в научной области, тем меньше вероятность того, что результаты исследования будут правдой.
Чем больше гибкость в планах , определениях, результатах и аналитических моделях в научной области, тем меньше вероятность того, что результаты исследования будут правдой.
Чем больше финансовых и других интересов и предубеждений в научной сфере, тем меньше вероятность того, что результаты исследования будут правдой.
Чем горячее научная область (в которой задействовано больше научных коллективов), тем меньше вероятность того, что результаты исследования будут правдой.

Прием и влияние [ править ]

Несмотря на скептицизм по поводу крайних заявлений, сделанных в статье, более широкие аргументы и предупреждения Иоаннидиса были приняты большим количеством исследователей. ^[5] Рост метанауки и признание кризиса научного тиражирования укрепили доверие к статье и привели к призывам к методологическим реформам в научных исследованиях. ^[6]^[7]

В комментариях и технических ответах статистики Гудман и Гренландия выявили несколько ошибок в модели Иоаннидиса. ^[8]^[9] Использование Иоаннидисом драматических и преувеличенных формулировок, которые он «доказал», что большинство утверждений о результатах исследований ложны и что «большинство результатов исследований ложны для большинства исследовательских проектов и для большинства областей » [курсив добавлен], было отклонено. и все же они согласились с выводами и рекомендациями его статьи. Биостатисты Ягер и Лик раскритиковали модель за то, что она основана на обоснованных, но произвольных предположениях, а не на эмпирических данных, и провели собственное исследование, в ходе которого подсчитали, что уровень ложноположительных результатов в биомедицинских исследованиях оценивается примерно в 14%не более 50%, как утверждал Ионнидис.^[10] Их статья была опубликована в специальном выпуске журнала Biostatistics за 2014 годвместе с расширенной поддерживающей критикой со стороны других статистиков. Лик резюмировал ключевые моменты согласия следующим образом: когда мы говорим о количестве ложных открытий с научной точки зрения, нужно приводить данные; существуют различные подходы для оценки уровня ложных открытий с научной точки зрения; и «весьма маловероятно, что большинство опубликованных исследований является ложным», но это, вероятно, варьируется в зависимости от определения «большинство» и «ложь».^[11] Статистик Ульрих Шиммик подчеркнул важность эмпирической основы для моделей, отметив, что сообщаемый уровень ложных открытий в некоторых областях науки не является фактическим уровнем открытия, поскольку незначительные результаты редко сообщаются. Теоретическая модель Иоаннидиса не учитывает этого, но когда статистический метод («z-кривая») для оценки количества неопубликованных несущественных результатов применяется к двум примерам, частота ложных срабатываний составляет от 8% до 17%, не более 50%. ^[12] Несмотря на эти слабые места, тем не менее, существует общее согласие с проблемой и рекомендациями, которые обсуждает Иоаннидис, однако его тон был описан как «драматический» и «тревожно вводящий в заблуждение», что создает риск излишнего скептического или циничного отношения людей к науке.^[8]^[13]

Долгосрочным результатом этой работы стало понимание основных движущих сил высокого уровня ложноположительных результатов в клинической медицине и биомедицинских исследованиях, а также усилия журналов и ученых по их смягчению. Иоаннидис назвал эти драйверы в 2016 году: ^[14]

Индивидуальный исследователь, ограниченный выборкой небольшого размера
Без предварительной регистрации проверяемых гипотез
Постфактум выбор гипотез с лучшими значениями P
Требуется только P <0,05
Нет репликации
Нет обмена данными

См. Также [ править ]

Теорема Байеса
Метанаука
Кризис репликации
- Инициатива Беркли по прозрачности в социальных науках
- Дноуглубительные работы
- Предвзятость публикации
- Проект воспроизводимости

Ссылки [ править ]

^ Иоаннидис, Джон PA (2005). «Почему большинство опубликованных результатов исследований ложны» . PLOS Medicine . 2 (8): e124. DOI : 10.1371 / journal.pmed.0020124 . ISSN 1549-1277 . PMC 1182327 . PMID 16060722 .
^ Кнопка, Кэтрин С .; Иоаннидис, Джон PA; Мокрыш, Клэр; Носек, Брайан А .; Флинт, Джонатан; Робинсон, Эмма SJ; Мунафо, Маркус Р. (2013). «Сбой питания: почему небольшой размер выборки подрывает надежность нейробиологии» . Обзоры природы Неврология . 14 (5): 365–376. DOI : 10.1038 / nrn3475 . ISSN 1471-0048 . PMID 23571845 .
^ Szucs, Denes; Иоаннидис, Джон PA (2017-03-02). «Эмпирическая оценка опубликованных величин и мощности эффекта в недавней литературе по когнитивной нейробиологии и психологии» . PLOS Биология . 15 (3): e2000797. DOI : 10.1371 / journal.pbio.2000797 . ISSN 1545-7885 . PMC 5333800 . PMID 28253258 .
^ Иоаннидис, Джон PA; Стэнли, штат ТД; Дукулиагос, Христос (2017). «Сила предвзятости в экономических исследованиях». Экономический журнал . 127 (605): F236 – F265. DOI : 10.1111 / ecoj.12461 . ISSN 1468-0297 .
^ Belluz, Юлия (2015-02-16). «Джон Иоаннидис посвятил свою жизнь количественной оценке того, как наука нарушается» . Vox . Проверено 28 марта 2020 .
^ «Низкая мощность и кризис репликации: что мы узнали с 2004 (или 1984, или 1964)?» «Статистическое моделирование, причинный вывод и социальные науки» . statmodeling.stat.columbia.edu . Проверено 28 марта 2020 .
^ Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. DOI : 10.1080 / 00031305.2016.1154108 . ISSN 0003-1305 .
^ а б Гудман, Стивен; Гренландия, Сандер (24 апреля 2007 г.). «Почему большинство опубликованных результатов исследований неверны: проблемы анализа» . PLOS Medicine . С. e168. DOI : 10.1371 / journal.pmed.0040168 . Архивировано из оригинального 16 мая 2020 года.
^ Гудман, Стивен; Гренландия, Сандер. «ОЦЕНКА НАДЕЖНОСТИ МЕДИЦИНСКОЙ ЛИТЕРАТУРЫ: ОТВЕТ НА« ПОЧЕМУ БОЛЬШИНСТВО ОПУБЛИКОВАННЫХ ИССЛЕДОВАТЕЛЬСКИХ РЕЗУЛЬТАТОВ ЛОЖНЫ » » . Собрание архива биостатистических исследований . Рабочий документ 135: Рабочие документы кафедры биостатистики Университета Джона Хопкинса. Архивировано из оригинала 2 ноября 2018 года.CS1 maint: location (link)
^ Jager, Leah R .; Лик, Джеффри Т. (1 января 2014 г.). «Оценка количества ложных открытий с научной точки зрения и их применение в лучшей медицинской литературе» . Биостатистика . Oxford Academic. С. 1–12. DOI : 10.1093 / биостатистику / kxt007 . Архивировано из оригинального 11 июня 2020 года.
^ Лик, Джефф. «Является ли большая часть науки ложной? Титаны взвешивают» . simplestatistics.org . Архивировано из оригинала на 31 января 2017 года.
^ Schimmick, Ульрих (16 января 2019). «Иоаннидис (2005) был неправ: результаты большинства опубликованных исследований не являются ложными» . Индекс воспроизводимости . Архивировано из оригинального 19 сентября 2020 года.
^ Ингрэм, Пол (15 сентября 2016). «Иоаннидис: С 2005 года наука выглядит плохо» . www.PainScience.com . Архивировано из оригинального 21 июня 2020 года.
^ Minikel, Эрик В. (17 марта 2016). «Джон Иоаннидис: состояние исследований в области исследований» . www.cureffi.org . Архивировано из оригинального 17 -го января 2020 года.

Дальнейшее чтение [ править ]

Университет Карнеги-Меллона, Клуб статистических журналов: Резюме и обсуждение: «Почему большинство опубликованных результатов исследований ложны»
Приложения к экономике: Де Лонг, Дж. Брэдфорд; Ланг, Кевин. «Все ли экономические гипотезы ложны?» Журнал политической экономии. 100 (6): 1257–1272, 1992.
Приложения к общественным наукам: Hardwicke, Tom E .; Wallach, Joshua D .; Кидвелл, Мэллори С .; Бендиксен, Тайсс; Крюэлл София и Иоаннидис, Джон П.А. «Эмпирическая оценка прозрачности и воспроизводимости исследовательских практик в социальных науках (2014–2017)». Королевское общество «Открытая наука». 7 : 190806, 2020.

Внешние ссылки [ править ]

Видео YouTube из Инициативы Беркли по прозрачности в социальных науках , 2016 г., "Почему большинство опубликованных результатов исследований ложны" ( часть I , часть II , часть III )
Видео на YouTube Джона Иоаннидиса на переговорах в Google , 2014 г. «Воспроизводимое исследование: правда или ложь?»

[1] Иоаннидис, Джон PA (2005). «Почему большинство опубликованных результатов исследований ложны» . PLOS Medicine . 2 (8): e124. DOI : 10.1371 / journal.pmed.0020124 . ISSN 1549-1277 . PMC 1182327 . PMID 16060722 .

[2] Кнопка, Кэтрин С .; Иоаннидис, Джон PA; Мокрыш, Клэр; Носек, Брайан А .; Флинт, Джонатан; Робинсон, Эмма SJ; Мунафо, Маркус Р. (2013). «Сбой питания: почему небольшой размер выборки подрывает надежность нейробиологии» . Обзоры природы Неврология . 14 (5): 365–376. DOI : 10.1038 / nrn3475 . ISSN 1471-0048 . PMID 23571845 .

[3] Szucs, Denes; Иоаннидис, Джон PA (2017-03-02). «Эмпирическая оценка опубликованных величин и мощности эффекта в недавней литературе по когнитивной нейробиологии и психологии» . PLOS Биология . 15 (3): e2000797. DOI : 10.1371 / journal.pbio.2000797 . ISSN 1545-7885 . PMC 5333800 . PMID 28253258 .

[4] Иоаннидис, Джон PA; Стэнли, штат ТД; Дукулиагос, Христос (2017). «Сила предвзятости в экономических исследованиях». Экономический журнал . 127 (605): F236 – F265. DOI : 10.1111 / ecoj.12461 . ISSN 1468-0297 .

[5] Belluz, Юлия (2015-02-16). «Джон Иоаннидис посвятил свою жизнь количественной оценке того, как наука нарушается» . Vox . Проверено 28 марта 2020 .

[6] «Низкая мощность и кризис репликации: что мы узнали с 2004 (или 1984, или 1964)?» «Статистическое моделирование, причинный вывод и социальные науки» . statmodeling.stat.columbia.edu . Проверено 28 марта 2020 .

[7] Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. DOI : 10.1080 / 00031305.2016.1154108 . ISSN 0003-1305 .

[Goodman-1-8] а б Гудман, Стивен; Гренландия, Сандер (24 апреля 2007 г.). «Почему большинство опубликованных результатов исследований неверны: проблемы анализа» . PLOS Medicine . С. e168. DOI : 10.1371 / journal.pmed.0040168 . Архивировано из оригинального 16 мая 2020 года.

[Goodman-2-9] Гудман, Стивен; Гренландия, Сандер. «ОЦЕНКА НАДЕЖНОСТИ МЕДИЦИНСКОЙ ЛИТЕРАТУРЫ: ОТВЕТ НА« ПОЧЕМУ БОЛЬШИНСТВО ОПУБЛИКОВАННЫХ ИССЛЕДОВАТЕЛЬСКИХ РЕЗУЛЬТАТОВ ЛОЖНЫ » » . Собрание архива биостатистических исследований . Рабочий документ 135: Рабочие документы кафедры биостатистики Университета Джона Хопкинса. Архивировано из оригинала 2 ноября 2018 года.CS1 maint: location (link)

[Leek-1-10] Jager, Leah R .; Лик, Джеффри Т. (1 января 2014 г.). «Оценка количества ложных открытий с научной точки зрения и их применение в лучшей медицинской литературе» . Биостатистика . Oxford Academic. С. 1–12. DOI : 10.1093 / биостатистику / kxt007 . Архивировано из оригинального 11 июня 2020 года.

[Leek-2-11] Лик, Джефф. «Является ли большая часть науки ложной? Титаны взвешивают» . simplestatistics.org . Архивировано из оригинала на 31 января 2017 года.

[12] Schimmick, Ульрих (16 января 2019). «Иоаннидис (2005) был неправ: результаты большинства опубликованных исследований не являются ложными» . Индекс воспроизводимости . Архивировано из оригинального 19 сентября 2020 года.

[13] Ингрэм, Пол (15 сентября 2016). «Иоаннидис: С 2005 года наука выглядит плохо» . www.PainScience.com . Архивировано из оригинального 21 июня 2020 года.

[Minikel-14] Minikel, Эрик В. (17 марта 2016). «Джон Иоаннидис: состояние исследований в области исследований» . www.cureffi.org . Архивировано из оригинального 17 -го января 2020 года.

[1]