Недействительная наука

Недействительная наука состоит из научных заявлений, основанных на экспериментах, которые невозможно воспроизвести, или которые опровергаются экспериментами, которые могут быть воспроизведены. Недавний анализ показывает, что доля отозванных претензий в научной литературе неуклонно растет. ^[1] Количество отзывов выросло в десять раз за последнее десятилетие, но они по-прежнему составляют примерно 0,2% от 1,4 млн статей, ежегодно публикуемых в научных журналах. ^[2]

США Управление по исследованиям целостности (ОРО), исследует научный проступок. ^[3]

Заболеваемость [ править ]

Журнал Science занял первое место по количеству отозванных статей - 70, опередив PNAS , которая отозвала 69. Тридцать два отзыва были вызваны мошенничеством или предполагаемым мошенничеством, а 37 - ошибкой. Последующий «индекс отозваний» показал, что журналы с относительно высокими импакт-факторами, такие как Science, Nature и Cell , имели более высокий уровень отказов. Менее 0,1% статей в PubMed было отозвано из более чем 25 миллионов статей, относящихся к 1940-м годам. ^[3]^[4]

Согласно исследованиям 2047 статей, опубликованных с 1977 года, доля отозванных статей из-за неправомерного научного поведения оценивается в две трети. К неправомерным действиям относятся мошенничество и плагиат. Еще пятая часть была отозвана из-за ошибок, а остальные были отозваны по неизвестным или другим причинам. ^[3]

В отдельном исследовании было проанализировано 432 заявления о генетической связи различных рисков для здоровья, которые различаются у мужчин и женщин. Только одно из этих утверждений оказалось стабильно воспроизводимым. Другой мета-обзор показал, что из 49 наиболее цитируемых клинических исследований, опубликованных в период с 1990 по 2003 год, более 40 процентов из них были позже либо полностью ошибочными, либо существенно неверными. ^[5]^[6]

Биологические науки [ править ]

В 2012 году биотехнологическая фирма Amgen смогла воспроизвести только шесть из 53 важных исследований рака . Ранее группа фармацевтической компании Bayer успешно повторила только четверть из 67 важных документов. В 2000–2010 годах около 80 000 пациентов приняли участие в клинических испытаниях, основанных на исследованиях, которые позже были отозваны из-за ошибок или несоответствий. ^[1]

Палеонтология [ править ]

Натану Мхирволду неоднократно не удавалось повторить выводы нескольких статей о росте динозавров. Каждый год динозавры добавляли слой к своим костям. Считалось, что тираннозавр рекс увеличивался в размерах более чем на 700 кг в год, пока Мгирволд не показал, что это вдвое больше. В 4 из 12 работ, которые он изучил, исходные данные были утеряны. В трех случаях статистика была верной, а в трех были допущены серьезные ошибки, которые опровергли их выводы. Две статьи ошибочно полагались на данные этих трех. Он обнаружил, что некоторые графики в статье не отражают данные. В одном случае он обнаружил, что только четыре из девяти точек на графике получены из данных, цитируемых в статье. ^[7]

Основные опровержения [ править ]

Изначально торцетрапиб рекламировался как лекарство, которое может блокировать белок, превращающий холестерин ЛПВП в ЛПНП, с потенциалом «переопределить лечение сердечно-сосудистой системы». Одно клиническое испытание показало, что препарат может повышать ЛПВП и снижать ЛПНП. Через два дня после того, как Pfizer объявила о своих планах в отношении препарата, она завершила клинические испытания фазы III из-за более высоких показателей боли в груди и сердечной недостаточности и 60-процентного увеличения общей смертности. Pfizer инвестировал более 1 миллиарда долларов в разработку препарата. ^[5]

Углубленный обзор наиболее цитируемых биомаркеров (присутствие которых используется для вывода о болезни и измерения эффектов лечения) показал, что 83 процента предполагаемых корреляций стали значительно слабее в последующих исследованиях. Гомоцистеин - это аминокислота, уровень которой коррелирует с сердечными заболеваниями. Однако исследование 2010 года показало, что снижение уровня гомоцистеина почти на 30 процентов не повлияло на сердечный приступ или инсульт. ^[5]

Грунтовка [ править ]

Прайминговые исследования утверждают, что на решения могут влиять явно не относящиеся к делу события, свидетелями которых является субъект непосредственно перед тем, как сделать выбор. Лауреат Нобелевской премии Даниэль Канеман утверждает, что многое из этого плохо обосновано. Исследователи не смогли воспроизвести некоторые из наиболее широко цитируемых примеров. В статье в PLoS ONE ^[8] сообщается, что девять отдельных экспериментов не могут воспроизвести исследование, целью которого является показать, что размышление о профессоре перед прохождением теста на интеллект приводит к более высоким баллам, чем представление футбольного хулигана. ^[2] Дальнейшее систематическое повторение с участием 40 различных лабораторий по всему миру не повторило основной результат. ^[9] Однако это последнее систематическое воспроизведение показало, что участники, которые не думали, что существует связь между мыслями о хулигане или профессоре, значительно более восприимчивы к манипуляциям с праймингом.

Возможные причины [ править ]

Конкурс [ править ]

В 1950-е годы, когда во время " холодной войны" ускорились академические исследования , общее число ученых составляло несколько сотен тысяч. В новом веке активно работают исследователи от 6 до 7 метров. Количество исследовательских работ не соответствовало этому увеличению. Каждый год шесть новых кандидатов наук соревнуются за каждую академическую должность. Воспроизведение результатов других исследователей не считается ценным. Борьба за конкуренцию способствует преувеличению результатов и необъективному отбору данных. Недавний опрос показал, что каждый третий исследователь знает коллегу, который хотя бы несколько исказил их результаты. ^[1]

Предвзятость публикации [ править ]

Крупные журналы отклоняют более 90% представленных рукописей и склонны отдавать предпочтение наиболее драматичным заявлениям. Статистические меры, которые исследователи используют для проверки своих утверждений, позволяют части ложных утверждений оказаться действительными. Недействительные утверждения с большей вероятностью будут драматичными (потому что они ложны). Без репликации такие ошибки с меньшей вероятностью будут обнаружены. ^[1]

И наоборот, неудачи в доказательстве гипотезы редко даже предлагаются для публикации. «Отрицательные результаты» сейчас составляют только 14% опубликованных статей, по сравнению с 30% в 1990 году. Знание того, что не соответствует действительности, так же важно, как и то, что является правдой. ^[1]

Рецензирование [ править ]

Рецензирование - это основной метод валидации, используемый в научных публикациях. Однако известный медицинский журнал протестировал систему и обнаружил серьезные недостатки. Он предоставил исследования с индуцированными ошибками и обнаружил, что большинство рецензентов не могли обнаружить ошибки даже после того, как им сообщили о тестах. ^[1]

Фальсифицированная статья под псевдонимом о влиянии химического вещества, полученного из лишайника, на раковые клетки была отправлена в 304 журнала для экспертной оценки. Документ был полон ошибок дизайна исследования, анализа и интерпретации. Его приняли 157 журналов с низкими рейтингами. Другое исследование отправило статью, содержащую восемь преднамеренных ошибок в дизайне, анализе и интерпретации исследования, более чем 200 регулярным рецензентам British Medical Journal . В среднем они сообщили менее чем о двух проблемах. ^[2]

Рецензенты обычно не проводят повторный анализ данных с нуля, проверяя только то, что анализ авторов правильно составлен. ^[2]

Статистика [ править ]

Ошибки типа I и типа II [ править ]

Ученые делят ошибки на тип I, неверно утверждающий истинность гипотезы (ложноположительный), и тип II, отвергающий правильную гипотезу (ложноотрицательный). Статистические проверки оценивают вероятность того, что данные, которые, как кажется, подтверждают гипотезу, появятся просто случайно. Если вероятность меньше 5%, свидетельство оценивается как «статистически значимое». Одно из определяющих последствий - это частота ошибок первого типа, равная одной 20 ^[2].

Статистическая сила [ править ]

В 2005 году эпидемиолог из Стэнфорда Джон Иоаннидис показал, что идея о том, что только одна из 20 статей дает ложноположительный результат, неверна. Он утверждал, что «большинство опубликованных результатов исследований, вероятно, ложны». Он обнаружил три категории проблем: недостаточная « статистическая мощность » (предотвращение ошибок типа II); неправдоподобность гипотезы; и предвзятость публикации в пользу новых заявлений. ^[2]

Статистически мощное исследование выявляет факторы, оказывающие лишь небольшое влияние на данные. В целом исследования с большим количеством повторений, в которых эксперимент проводится больше раз на большем количестве испытуемых, имеют большую силу. Степень 0,8 означает, что из десяти проверенных истинных гипотез влияние двух не учитывается. Иоаннидис обнаружил, что в неврологии типичная статистическая мощность составляет 0,21; другое исследование показало, что по психологии в среднем 0,35. ^[2]

Подлинность - это мера степени неожиданности результата. Ученые предпочитают неожиданные результаты, заставляя их проверять гипотезы, которые маловероятны. Иоаннидис утверждал, что в эпидемиологии примерно одна из десяти гипотез должна быть верной. В исследовательских дисциплинах, таких как геномика, которые полагаются на изучение обширных данных о генах и белках, только один из тысячи должен оказаться правильным. ^[2]

В дисциплине, в которой верны 100 из 1000 гипотез, исследования со степенью 0,8 найдут 80 и пропустят 20. Из 900 неверных гипотез 5% или 45 будут приняты из-за ошибок типа I. Добавление 45 ложных срабатываний к 80 истинным срабатываниям дает 125 положительных результатов, или 36% ложных результатов. Снижение статистической мощности до 0,4, оптимистичное для многих областей, по-прежнему будет давать 45 ложных срабатываний, но только 40 истинных срабатываний, меньше половины. ^[2]

Отрицательные результаты более надежны. Статистическая мощность 0,8 дает 875 отрицательных результатов, из которых только 20 ложны, что дает точность более 97%. Однако отрицательные результаты составляют меньшинство опубликованных результатов, различающихся в зависимости от дисциплины. Исследование 4600 статей показало, что доля опубликованных отрицательных результатов упала с 30% до 14% в период с 1990 по 2007 год ^[2].

Субатомная физика устанавливает приемлемую частоту ложных срабатываний - один на 3,5 метра (известный как стандарт пяти сигм ). Однако даже это не обеспечивает идеальной защиты. Согласно одному обзору, проблема сводит на нет около 3/4 исследований машинного обучения . ^[2]

Статистическая значимость [ править ]

Статистическая значимость - это мера проверки статистической корреляции . Его изобрел английский математик Рональд Фишер в 1920-х годах. Он определяет «значимый» результат как любую точку данных, которая может быть получена случайно менее чем в 5 (или, более строго, в 1) процентах случаев. Значительный результат широко рассматривается как важный показатель того, что корреляция не случайна. ^[5]

Хотя корреляции отслеживают взаимосвязь между действительно независимыми измерениями, такими как курение и рак, они гораздо менее эффективны, когда переменные не могут быть изолированы, что является обычным явлением в биологических системах. Например, статистика обнаружила высокую корреляцию между болью в пояснице и аномалиями в позвоночных дисках, хотя позже было обнаружено, что серьезные аномалии присутствовали у двух третей пациентов, не страдающих от боли. ^[5]

Минимальный порог издателей [ править ]

Такие журналы, как PLoS One, используют стандарт «минимального порога», стремясь опубликовать как можно больше научных данных, а не отбирать лучшие работы. Их рецензенты оценивают только то, является ли статья методологически обоснованной. Почти половина их представлений по-прежнему отклоняется на этом основании. ^[2]

Неопубликованное исследование [ править ]

Только 22% клинических испытаний, финансируемых Национальными институтами здравоохранения (NIH), опубликовали сводные результаты в течение одного года после завершения, хотя NIH требует этого. Менее половины опубликовано в течение 30 месяцев; третья осталась неопубликованной через 51 месяц. ^[2] Когда другие ученые полагаются на недействительные исследования, они могут тратить время на исследования, которые сами по себе недействительны. Неспособность сообщить о неудачах означает, что исследователи тратят деньги и усилия на изучение тупиков, уже исследованных другими учеными. ^[1]

Мошенничество [ править ]

В 21 опросе ученых (в основном в биомедицинских науках, но также в области гражданского строительства, химии и экономики), проведенном в период с 1987 по 2008 год, 2% признали сфабрикованные данные, но 28% заявили, что знают коллег, которые занимались сомнительной исследовательской практикой. ^[2]

Отсутствие доступа к данным и программному обеспечению [ править ]

Клинические испытания, как правило, слишком дороги для повторного проведения. Доступ к данным испытаний - единственный практический подход к переоценке. Кампания, направленная на то, чтобы убедить фармацевтические фирмы предоставить все данные испытаний, впервые привлекла внимание в феврале 2013 года, когда GlaxoSmithKline стала первой, кто согласился. ^[2]

Программное обеспечение, используемое в испытании, обычно считается частной интеллектуальной собственностью и недоступно для репликаторов, что еще больше усложняет ситуацию. Журналы, настаивающие на совместном использовании данных, как правило, не делают того же в отношении программного обеспечения. ^[2]

Даже хорошо написанные статьи могут не содержать достаточных деталей и / или неявных знаний (тонкие навыки и импровизация, которые не считаются заметными) для успешного воспроизведения. Одной из причин сбоя репликации является недостаточный контроль над протоколом, что может вызвать споры между исходными и копирующими исследователями. ^[2]

Реформа [ править ]

Статистика обучения [ править ]

Генетики начали более тщательные обзоры, особенно в отношении использования статистических методов. Эффект заключался в том, чтобы остановить поток ложных результатов секвенирования генома . ^[1]

Регистрация протокола [ править ]

Предварительная регистрация исследовательских протоколов и их мониторинг в ходе исследования может помешать исследователям изменить промежуточный протокол, чтобы выделить предпочтительные результаты. Предоставление необработанных данных другим исследователям для проверки и тестирования также может лучше привлечь внимание исследователей. ^[1]

Обзор после публикации [ править ]

Замена экспертной оценки оценкой после публикации может побудить исследователей больше задуматься о долгосрочных последствиях чрезмерных или необоснованных утверждений. Эта система была принята в физике и математике с хорошими результатами. ^[1]

Репликация [ править ]

Немногие исследователи, особенно младшие сотрудники, ищут возможности воспроизвести работу других, отчасти для защиты отношений со старшими исследователями. ^[2]

Воспроизведение выигрывает от доступа к оригинальным методам и данным исследования. Более половины из 238 биомедицинских статей, опубликованных в 84 журналах, не смогли определить все ресурсы (например, химические реактивы), необходимые для воспроизведения результатов. В 2008 году около 60% исследователей заявили, что поделятся необработанными данными; в 2013 году только 45%. Журналы начали требовать, чтобы были доступны хотя бы некоторые необработанные данные, хотя только 143 из 351 случайно выбранных статей, подпадающих под какую-либо политику обмена данными, действительно соблюдали их. ^[2]

Инициатива воспроизводимости - это услуга, позволяющая ученым-биологам платить за то, чтобы их работа была подтверждена независимой лабораторией. В октябре 2013 года эта инициатива получила финансирование для обзора 50 наиболее значимых результатов исследований рака, опубликованных в период с 2010 по 2012 год. Blog Syn - это веб-сайт, управляемый аспирантами и посвященный воспроизведению химических реакций, описанных в статьях. ^[2]

В 2013 г. усилиям по тиражированию было уделено больше внимания. В мае в журналах Nature и связанных с ними публикациях был представлен контрольный список из 18 пунктов для авторов биологических наук ^[10], стремясь обеспечить возможность воспроизведения опубликованных исследований. Расширенные разделы «методы» и все данные должны были быть доступны в Интернете. Центр открытой науки открылся как независимая лаборатория, ориентированная на тиражирование. В журнале «Перспективы психологической науки» объявлен раздел, посвященный тиражированиям. Другой проект объявил о планах воспроизвести 100 исследований, опубликованных за первые три месяца 2008 года в трех ведущих психологических журналах. ^[2]

Основные спонсоры, в том числе Европейский исследовательский совет , Национальный научный фонд США и Исследовательские советы Великобритании , не изменили своего предпочтения новой работе перед повторением. ^[2]

См. Также [ править ]

Часы с отводом
Статистическая корреляция
Дело Сералини
Кризис репликации
Проект воспроизводимости
Метанаука (исследования)

Ссылки [ править ]

^ a b c d e f g h i j "Проблемы с научными исследованиями: как наука идет не так" . Экономист. 2013-10-19 . Проверено 19 октября 2013 .
^ Б с д е е г ч я J к л м п о р а Q R сек т у V «Ненадежная исследование: Неисправность в лаборатории» . Экономист. 2013-10-19 . Проверено 22 октября 2013 .
^ a b c «Проступки, а не ошибки, вызывают большинство отзывов научных статей | Наука / AAAS | Новости» . News.sciencemag.org. 2012-10-01 . Проверено 19 октября 2013 .
^ Фанг, ФК; Стин, Р.Г.; Касадеваль, А. (2012). «На неправомерные действия приходится большая часть отозванных научных публикаций» . Труды Национальной академии наук . 109 (42): 17028–33. DOI : 10.1073 / pnas.1212247109 . PMC 3479492 . PMID 23027971 .
↑ a b c d e Лерер, Иона (16 декабря 2011 г.). «Испытания и ошибки: почему наука нас подводит» . Проводной . Проверено 22 октября 2013 года .
^ "Часто цитируемые исследования часто опровергаются" . Medscape.com . Проверено 22 октября 2013 .
^ Аноним (2013-12-21). «Палеонтология: кость на выбор» . Экономист . Проверено 17 апреля 2014 .
^ Шанкс, Дэвид Р .; Ньюэлл, Бен Р .; Ли, Ын Хи; Балакришнан, Дивья; Экелунд, Лиза; Cenac, Zarus; Каввадия, Фрагкиски; Мур, Кристофер (24 апреля 2013). «Прайминг интеллектуального поведения: неуловимое явление» . PLOS ONE . 8 (4): e56515. DOI : 10.1371 / journal.pone.0056515 . ISSN 1932-6203 . PMC 3634790 . PMID 23637732 .
^ О'Доннелл, Майкл; Нельсон, Лейф Д .; Аккерманн, Эви; Акзель, Балаш; Ахтар, Атфа; Альдрованди, Сильвио; Альшаиф, Нассим; Андринга, Рональд; Авеард, Марк; Бабинчак, Питер; Балатекин, Нурсена (21.02.2018). «Отчет о зарегистрированной репликации: Дейкстерхейс и ван Книппенберг (1998 г.)» (PDF) . Перспективы психологической науки . 13 (2): 268–294. DOI : 10.1177 / 1745691618755704 . ISSN 1745-6916 . PMID 29463182 . S2CID 3423830 .
^ Контрольный список отчетов для статей по наукам о жизни

Внешние ссылки [ править ]

"Наука пошла не так?" . Экономист. 2013-10-19 . Проверено 22 октября 2013 .
O'GradyDec. 9, Кэтлин; 2020; Вечер, 2:05 (09.12.2020). «Кризис репликации психологии вдохновляет экологов стремиться к более надежным исследованиям» . Наука | AAAS . Проверено 16 декабря 2020 .CS1 maint: числовые имена: список авторов ( ссылка )

[econ1013-1] ^ a b c d e f g h i j "Проблемы с научными исследованиями: как наука идет не так" . Экономист. 2013-10-19 . Проверено 19 октября 2013 .

[alarming-2] Б с д е е г ч я J к л м п о р а Q R сек т у V «Ненадежная исследование: Неисправность в лаборатории» . Экономист. 2013-10-19 . Проверено 22 октября 2013 .

[sci1012-3] «Проступки, а не ошибки, вызывают большинство отзывов научных статей | Наука / AAAS | Новости» . News.sciencemag.org. 2012-10-01 . Проверено 19 октября 2013 .

[4] Фанг, ФК; Стин, Р.Г.; Касадеваль, А. (2012). «На неправомерные действия приходится большая часть отозванных научных публикаций» . Труды Национальной академии наук . 109 (42): 17028–33. DOI : 10.1073 / pnas.1212247109 . PMC 3479492 . PMID 23027971 .

[wired1112-5] Лерер, Иона (16 декабря 2011 г.). «Испытания и ошибки: почему наука нас подводит» . Проводной . Проверено 22 октября 2013 года .

[6] "Часто цитируемые исследования часто опровергаются" . Medscape.com . Проверено 22 октября 2013 .

[7] Аноним (2013-12-21). «Палеонтология: кость на выбор» . Экономист . Проверено 17 апреля 2014 .

[8] Шанкс, Дэвид Р .; Ньюэлл, Бен Р .; Ли, Ын Хи; Балакришнан, Дивья; Экелунд, Лиза; Cenac, Zarus; Каввадия, Фрагкиски; Мур, Кристофер (24 апреля 2013). «Прайминг интеллектуального поведения: неуловимое явление» . PLOS ONE . 8 (4): e56515. DOI : 10.1371 / journal.pone.0056515 . ISSN 1932-6203 . PMC 3634790 . PMID 23637732 .

[9] О'Доннелл, Майкл; Нельсон, Лейф Д .; Аккерманн, Эви; Акзель, Балаш; Ахтар, Атфа; Альдрованди, Сильвио; Альшаиф, Нассим; Андринга, Рональд; Авеард, Марк; Бабинчак, Питер; Балатекин, Нурсена (21.02.2018). «Отчет о зарегистрированной репликации: Дейкстерхейс и ван Книппенберг (1998 г.)» (PDF) . Перспективы психологической науки . 13 (2): 268–294. DOI : 10.1177 / 1745691618755704 . ISSN 1745-6916 . PMID 29463182 . S2CID 3423830 .

[10] Контрольный список отчетов для статей по наукам о жизни

[1]