Неправильное использование статистики

Статистические данные , используемые в ложном виде, могут обмануть случайного наблюдателя, чтобы он поверил чему-то другому, кроме того, что показывают данные . То есть неправильное использование статистики происходит, когда статистический аргумент утверждает ложь . В некоторых случаях неправильное использование может быть случайным. В других случаях это делается целенаправленно и ради выгоды преступника. Когда задействованная статистическая причина ложна или используется неправильно, это составляет статистическую ошибку .

Ловушка ложной статистики может нанести серьезный ущерб поиску знаний. Например, в медицинской науке исправление фальши может занять десятилетия и стоить жизни.

Неправильное использование может быть легким. Профессиональных ученых, даже математиков и профессиональных статистиков, можно обмануть даже некоторыми простыми методами, даже если они тщательно все проверяют. Известно, что ученые обманывают себя статистикой из-за незнания теории вероятностей и отсутствия стандартизации своих тестов .

Определение, ограничения и контекст

Одно из применимых определений: «Злоупотребление статистикой: использование чисел таким образом, что - либо намеренно, либо из-за незнания или небрежности - выводы являются необоснованными или неверными». ^[1] «Числа» включают вводящую в заблуждение графику, обсуждаемую в другом месте. Этот термин не часто встречается в статистических текстах, и его авторитетное определение неизвестно. Это обобщение лжи со статистикой, которая была подробно описана статистиками 60 лет назад.

Определение сталкивается с некоторыми проблемами (некоторые рассматриваются источником): ^[2]

Статистика обычно производит вероятности; выводы являются предварительными
В предварительных выводах есть ошибки и процент ошибок. Обычно 5% предварительных выводов теста значимости неверны
Статистики не полностью согласны с идеальными методами.
Статистические методы основаны на допущениях, которые редко полностью выполняются.
Сбор данных обычно ограничивается этическими, практическими и финансовыми ограничениями.

Как Ли с статистикой признаетчто статистика может законно принимать различные формы. Независимо от цифр, можно спорить о том, является ли продукт «легким и экономичным» или «хрупким и дешевым». Некоторые возражают против подмены морального лидерства (например) статистической корректностью в качестве цели. Винить в злоупотреблениях часто сложно, потому что ученые, социологи, статистики и репортеры часто являются сотрудниками или консультантами.

Коварное злоупотребление (?) Статистикой завершается слушателем / наблюдателем / аудиторией / присяжным заседателем. Поставщик предоставляет «статистику» в виде чисел или графиков (или фотографий до / после), позволяя потребителю сделать (возможно, необоснованные или неверные) выводы. Плохое состояние государственной статистической грамотности и нестатистический характер человеческой интуиции позволяют вводить в заблуждение без явных ложных выводов. Это слабое определение ответственности потребителя статистики.

Историк перечислил более 100 заблуждений в десятке категорий, включая те, которые связаны с обобщением и причинно-следственной связью. ^[3] Некоторые из заблуждений являются явно или потенциально статистическими, включая выборку, статистическую бессмыслицу, статистическую вероятность, ложную экстраполяцию, ложную интерполяцию и коварное обобщение. Все технические / математические проблемы прикладной вероятности укладываются в единственное перечисленное заблуждение статистической вероятности. Многие из заблуждений могут быть связаны со статистическим анализом, что делает возможным ложное заключение, вытекающее из безупречного статистического анализа.

Пример использования статистики - анализ медицинских исследований. Этот процесс включает ^[4]^[5] экспериментальное планирование, проведение эксперимента, анализ данных, создание логических выводов и представление / отчет. Отчет подготовлен популярной прессой и рекламодателями. Неправильное использование статистики может быть результатом проблем на любом этапе процесса. Статистические стандарты, которые в идеале налагаются на научный отчет, сильно отличаются от тех, которые навязываются популярной прессе и рекламодателям; однако бывают случаи, когда реклама замаскирована под науку . Определение неправомерного использования статистики является слабым в отношении требуемой полноты статистической отчетности. Высказывается мнение, что газеты должны предоставлять хотя бы источник публикуемой статистики.

Простые причины

Многие злоупотребления статистикой происходят из-за того, что

Источник - предметный эксперт, а не статистик. ^[6] Источник может неправильно использовать метод или интерпретировать результат.
Источник - статистик, а не предметный эксперт. ^[7] Эксперт должен знать, когда сравниваемые числа описывают разные вещи. Цифры меняются, в отличие от реальности, когда меняются юридические определения или политические границы.
Изучаемый предмет четко не определен. ^[8] Несмотря на то, что IQ-тесты доступны и числовые, трудно определить, что они измеряют; Интеллект - понятие неуловимое. Публикация "воздействия" имеет ту же проблему. ^[9] На первый взгляд простой вопрос о количестве слов в английском языке сразу же встречает вопросы об архаичных формах, учете префиксов и суффиксов, множественных определениях слова, вариантах написания, диалектах, причудливых творениях (например, эктопластике из эктоплазмы и статистике) , ^[10] техническая лексика ...
Качество данных низкое. ^[11] Примером может служить одежда. Люди имеют широкий диапазон размеров и форм тела. Очевидно, что размеры одежды должны быть многомерными. Вместо этого он сложен в неожиданных отношениях. Некоторая одежда продается только по размеру (без явного учета формы тела), размеры зависят от страны и производителя, а некоторые размеры намеренно вводят в заблуждение. Хотя размеры являются числовыми, возможен только самый грубый статистический анализ с использованием чисел размера с осторожностью.
Популярная пресса имеет ограниченный опыт и неоднозначные мотивы. ^[12] Если факты не заслуживают освещения в печати (что может потребовать преувеличения), они не могут быть опубликованы. Мотивы рекламодателей еще более неоднозначны.
«Политики используют статистику так же, как пьяный использует фонарные столбы - для поддержки, а не для освещения» - Эндрю Лэнг (WikiQuote) «Чему мы учимся из этих двух способов взглянуть на одни и те же числа? Мы узнаем, что умный пропагандист , направо или налево, почти всегда может найти способ представить данные об экономическом росте, которые, кажется, подтверждают ее версию. И поэтому мы также учимся брать любой статистический анализ из сильно политизированного источника с горстью соли ". ^[13] Термин «статистика» происходит от цифр, генерируемых и используемых государством. Хорошее правительство может потребовать точных цифр, но популярное правительство может потребовать подтверждающих цифр (не обязательно одинаковых). «Использование и неправильное использование статистики правительствами - древнее искусство». ^[14]

Типы неправомерного использования

Отказ от неблагоприятных наблюдений

Все, что нужно сделать компании для продвижения нейтрального (бесполезного) продукта, - это найти или провести, например, 40 исследований с уровнем достоверности 95%. Если продукт действительно бесполезен, в среднем будет проведено одно исследование, показывающее, что продукт полезен, одно исследование, показывающее, что он вреден, и тридцать восемь безрезультатных исследований (38 - 95% из 40). Эта тактика становится тем более эффективной, чем больше доступно исследований. Организации, которые не публикуют все исследования, которые они проводят, например табачные компании, отрицающие связь между курением и раком, группы по защите интересов курения и средства массовой информации, пытающиеся доказать связь между курением и различными заболеваниями, или продавцы чудодейственных таблеток, скорее всего, используйте эту тактику.

Рональд Фишер рассматривал этот вопрос в своем знаменитом эксперименте с дегустацией чая (из его книги 1935 года « План экспериментов» ). Что касается повторных экспериментов, он сказал: «Это было бы явно незаконным и лишило бы наших расчетов его основы, если бы не все неудачные результаты были учтены».

Еще один термин, связанный с этим понятием, - сбор вишни .

Игнорирование важных функций

Наборы данных с несколькими переменными имеют две или более функции / измерения . Если для анализа выбрано слишком мало этих функций (например, если выбрана только одна функция и выполняется простая линейная регрессия вместо множественной линейной регрессии ), результаты могут вводить в заблуждение. Это делает аналитика уязвимым для любого из различных статистических парадоксов или в некоторых (не во всех) случаях ложной причинности, как показано ниже.

Загруженные вопросы

Ответами на опросы часто можно манипулировать, формулируя вопрос таким образом, чтобы респондент склонялся к определенному ответу. Например, при опросе в поддержку войны вопросы:

Поддерживаете ли вы попытку США принести свободу и демократию в другие места в мире?
Поддерживаете ли вы неспровоцированную военную акцию США?

вероятно, приведет к искажению данных в разные стороны, хотя они оба опрашивают поддержку войны. Лучше сформулировать вопрос: «Поддерживаете ли вы нынешние военные действия США за границей?» Еще более почти нейтральный способ задать этот вопрос: «Что вы думаете о текущих военных действиях США за рубежом?» Дело должно быть в том, что человек, которого спрашивают, не может догадаться по формулировке, что спрашивающий, возможно, хотел бы услышать.

Другой способ сделать это - поставить перед вопросом перед вопросом информацию, которая поддерживает «желаемый» ответ. Например, больше людей, скорее всего, ответят «да» на вопрос «Учитывая растущее налоговое бремя для семей среднего класса, поддерживаете ли вы снижение подоходного налога?» чем на вопрос «Учитывая растущий дефицит федерального бюджета и острую потребность в увеличении доходов, поддерживаете ли вы снижение подоходного налога?»

Правильная формулировка вопросов может быть очень тонкой. Ответы на два вопроса могут сильно отличаться в зависимости от порядка, в котором они задаются. ^[15] «Опрос, в котором задавался вопрос о« владении акциями », показал, что большинство техасских владельцев ранчо владеют акциями, хотя, вероятно, не такими, которые торгуются на Нью-Йоркской фондовой бирже». ^[16]

Чрезмерное обобщение

Чрезмерное обобщение - это заблуждение, возникающее, когда утверждается, что статистические данные о конкретной популяции справедливы среди членов группы, для которой исходная популяция не является репрезентативной выборкой.

Например, предположим, что 100% яблок летом красные. Утверждение «Все яблоки красные» было бы примером чрезмерного обобщения, потому что исходная статистика верна только для определенного подмножества яблок (летом), которое, как ожидается, не будет репрезентативным для популяции яблок в целом.

Реальный пример ошибки чрезмерного обобщения можно наблюдать как артефакт современных методов опроса, которые запрещают звонить на сотовые телефоны для политических опросов по телефону. Поскольку молодые люди чаще, чем другие демографические группы, не имеют обычного «стационарного» телефона, телефонный опрос, в ходе которого опрашивается исключительно респондентов на звонки на стационарные телефоны, может привести к тому, что результаты опроса не будут отражать мнения молодых людей, если не будут приняты другие меры. чтобы учесть этот перекос выборки. Таким образом, опрос, изучающий предпочтения молодых людей при голосовании с использованием этого метода, может не дать совершенно точного представления об истинных предпочтениях молодых людей при голосовании в целом без чрезмерного обобщения, потому что использованная выборка исключает молодых людей, которые носят только мобильные телефоны, которые могут или могут не иметь предпочтений при голосовании, которые отличаются от предпочтений остального населения.

Чрезмерное обобщение часто происходит, когда информация передается через нетехнические источники, в частности через СМИ.

Предвзятые образцы

Ученые ценой больших затрат осознали, что сбор хороших экспериментальных данных для статистического анализа затруднен. Пример: эффект плацебо (разум выше тела) очень силен. У 100% субъектов появилась сыпь при воздействии инертного вещества, которое ошибочно назвали ядовитым плющом, в то время как у немногих появилась сыпь на "безвредном" предмете, которым на самом деле был ядовитый плющ. ^[17] Исследователи борются с этим эффектом с помощью двойных слепых рандомизированных сравнительных экспериментов . Статистики обычно больше беспокоятся о достоверности данных, чем об анализе. Это отражено в области исследований в статистике, известной как план экспериментов .

Опросники ценой больших затрат узнали, что сбор хороших данных опросов для статистического анализа затруднен. Селективное влияние сотовых телефонов на сбор данных (обсуждается в разделе «Обобщение») является одним из возможных примеров; Если молодые люди с традиционными телефонами не являются репрезентативными, выборка может быть необъективной. Выборочные опросы имеют множество подводных камней и требуют большой осторожности при проведении. ^[18] Одно усилие потребовало почти 3000 телефонных звонков, чтобы получить 1000 ответов. Простая случайная выборка населения «непроста и не может быть случайной». ^[19]

Неверное сообщение или неправильное понимание предполагаемой ошибки

Если исследовательская группа хочет знать, что думают 300 миллионов человек по определенной теме, было бы непрактично спрашивать их всех. Однако, если команда выберет случайную выборку из примерно 1000 человек, они могут быть достаточно уверены, что результаты, данные этой группой, репрезентативны для того, что бы сказала большая группа, если бы их всех спросили.

Эта уверенность может быть фактически определена количественно с помощью центральной предельной теоремы и других математических результатов. Уверенность выражается как вероятность того, что истинный результат (для большей группы) находится в пределах определенного диапазона оценки (цифра для меньшей группы). Это показатель «плюс-минус», который часто приводится в статистических обследованиях. Вероятностная часть уровня уверенности обычно не упоминается; в таком случае предполагается, что это стандартное число, например 95%.

Эти два числа связаны. Если обследование имеет оценочную ошибку ± 5% при доверительной вероятности 95%, она также имеет оценочную ошибку ± 6,6% при достоверности 99%. ± ${\ displaystyle x}$ % при доверительной вероятности 95% всегда ± ${\ displaystyle 1.32x}$ % при достоверности 99% для нормально распределенной популяции.

Чем меньше оценочная ошибка, тем больше требуется выборка при заданном уровне достоверности.

при достоверности 95,4% :

± 1% потребует 10 000 человек.
± 2% потребуется 2500 человек.
± 3% потребуется 1111 человек.
± 4% потребуется 625 человек.
± 5% потребуется 400 человек.
± 10% потребуется 100 человек.
± 20% потребует 25 человек.
± 25% потребуется 16 человек.
± 50% потребуется 4 человека.

Люди могут предположить, поскольку показатель достоверности опущен, что существует 100% уверенность в том, что истинный результат находится в пределах оцененной ошибки. Это неверно с математической точки зрения.

Многие люди могут не осознавать, что случайность выборки очень важна. На практике многие опросы общественного мнения проводятся по телефону, что искажает выборку несколькими способами, включая исключение людей, у которых нет телефонов, поддержку включения людей, у которых есть более одного телефона, и включение людей, которые хотят участвовать в телефонном опросе тех, кто отказывается, и т. д. Неслучайная выборка делает оценку ошибки ненадежной.

С другой стороны, люди могут считать статистику ненадежной по своей природе, потому что не все звонят или потому что их самих никогда не опрашивают. Люди могут подумать, что невозможно получить данные о мнении десятков миллионов людей, просто опросив несколько тысяч. Это тоже неточно. ^[a] Опрос с идеальной беспристрастной выборкой и правдивыми ответами имеет математически определенную погрешность , которая зависит только от количества опрошенных людей.

Однако часто в опросе указывается только одна погрешность. Когда результаты сообщаются для подгрупп населения, будет применяться большая погрешность, но это может быть неясно. Например, опрос 1000 человек может включать 100 человек из определенной этнической или экономической группы. Результаты, ориентированные на эту группу, будут гораздо менее надежными, чем результаты для всего населения. Если допустимая погрешность для полной выборки составляла, скажем, 4%, то погрешность для такой подгруппы могла бы составлять около 13%.

Есть также много других проблем измерения при обследованиях населения.

Упомянутые выше проблемы относятся ко всем статистическим экспериментам, а не только к опросам населения.

Ложная причинность

Когда статистический тест показывает корреляцию между A и B, обычно существует шесть возможностей:

А вызывает Б.
B вызывает A.
A и B оба частично вызывают друг друга.
И A, и B вызваны третьим фактором C.
B вызывается C, который коррелирует с A.
Наблюдаемая корреляция была чисто случайной.

Шестую возможность можно количественно оценить с помощью статистических тестов, которые могут вычислить вероятность того, что наблюдаемая корреляция будет такой же большой, как и случайность, если на самом деле нет взаимосвязи между переменными. Однако, даже если эта возможность имеет небольшую вероятность, есть еще пять других.

Если количество людей, покупающих мороженое на пляже, статистически связано с количеством людей, которые тонут на пляже, тогда никто не станет утверждать, что мороженое вызывает утопление, потому что очевидно, что это не так. (В этом случае и утопление, и покупка мороженого явно связаны третьим фактором: количеством людей на пляже).

Это заблуждение можно использовать, например, для доказательства того, что воздействие химического вещества вызывает рак. Замените «количество людей, покупающих мороженое» на «количество людей, подвергшихся воздействию химического вещества X», а «количество утонувших» на «количество людей, заболевших раком», и многие люди вам поверят. В такой ситуации может существовать статистическая корреляция, даже если нет реального эффекта. Например, если есть мнение, что химический объект «опасен» (даже если это действительно не так), стоимость собственности в этом районе будет уменьшаться, что побудит больше малообеспеченных семей переехать в этот район. Если в семьях с низкими доходами больше шансов заболеть раком, чем в семьях с высокими доходами (например, из-за плохого питания или ограниченного доступа к медицинскому обслуживанию), то заболеваемость раком возрастет, даже если химическое вещество само по себе не опасно. Считается ^[22], что именно это и произошло с некоторыми из ранних исследований, показывающих связь между ЭМП ( электромагнитными полями ) от линий электропередач и раком . ^[23]

В хорошо спланированных исследованиях эффект ложной причинности может быть устранен путем случайного отнесения некоторых людей к «экспериментальной группе», а некоторых - к «контрольной группе», а также предоставления лечебной группе лечения и отказа от контрольной группы. лечение. В приведенном выше примере исследователь может подвергнуть одну группу людей воздействию химического вещества X и оставить вторую группу незащищенными. Если первая группа имела более высокий уровень заболеваемости раком, исследователь знает, что не существует третьего фактора, влияющего на то, подвергался ли человек воздействию, потому что он контролировал, кто подвергался воздействию или нет, и он произвольно распределил людей в группы, подвергшиеся и не подвергавшиеся воздействию. Однако во многих приложениях на самом деле проведение эксперимента таким образом либо чрезмерно дорого, либо невозможно, неэтично, незаконно или совершенно невозможно. Например, очень маловероятно, что IRB согласится с экспериментом, который включал намеренное воздействие на людей опасного вещества с целью проверки его токсичности. Очевидные этические последствия таких экспериментов ограничивают возможности исследователей эмпирически проверить причинно-следственную связь.

Доказательство нулевой гипотезы

В статистическом тесте нулевая гипотеза ( ${\ displaystyle H_ {0}}$ ) считается действительным, пока достаточное количество данных не докажет, что это неверно. потом ${\ displaystyle H_ {0}}$ отвергается и альтернативная гипотеза ( ${\ displaystyle H_ {A}}$ ) считается правильным. Случайно такое может случиться, хотя ${\ displaystyle H_ {0}}$ верно, с вероятностью, обозначенной ${\ displaystyle \ alpha}$ (уровень значимости). Это можно сравнить с судебным процессом, где обвиняемый считается невиновным ( ${\ displaystyle H_ {0}}$ ) до тех пор, пока виновность не будет доказана ( ${\ displaystyle H_ {A}}$ ) при отсутствии обоснованного сомнения ( ${\ displaystyle \ alpha}$ ).

Но если данные не дают нам достаточно доказательств, чтобы отклонить это ${\ displaystyle H_ {0}}$ , это не означает автоматически, что ${\ displaystyle H_ {0}}$ верно. Если, например, производитель табака желает продемонстрировать безопасность своей продукции, он может легко провести тест с небольшой выборкой курильщиков по сравнению с небольшой выборкой некурящих. Маловероятно, что у кого-либо из них разовьется рак легких (и даже если они это сделают, разница между группами должна быть очень большой, чтобы ${\ displaystyle H_ {0}}$ ). Следовательно, вероятно, даже если курение опасно, наш тест не отклонит ${\ displaystyle H_ {0}}$ . Если ${\ displaystyle H_ {0}}$ Принято считать, что это автоматически не означает, что курение безвредно. У теста недостаточно мощности для отклонения ${\ displaystyle H_ {0}}$ , поэтому тест бесполезен и ценность «доказательства» ${\ displaystyle H_ {0}}$ также равно нулю.

Это можно - используя приведенный выше судебный аналог - сравнить с действительно виновным обвиняемым, освобожденным только потому, что доказательств недостаточно для вынесения обвинительного приговора. Это не доказывает невиновность подсудимого, а только то, что доказательств недостаточно для вынесения обвинительного приговора.

«... нулевая гипотеза никогда не доказывается и не устанавливается, но она, возможно, опровергается в ходе экспериментов. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу». (Фишер в « Планировании экспериментов» ) Существует множество причин для путаницы, включая использование двойной отрицательной логики и терминологии в результате слияния «проверки значимости» Фишера (где нулевая гипотеза никогда не принимается) с «проверкой гипотез» (где некоторая гипотеза всегда принимается).

Заблуждение статистической значимости с практической значимостью

Статистическая значимость - это мера вероятности; практическое значение - мера эффекта. ^[24] Лекарство от облысения является статистически значимым, если редкий персиковый пушок обычно покрывает ранее обнаженную кожу головы. Вылечить можно практически, когда шляпа больше не требуется в холодную погоду и парикмахер спрашивает, сколько ее снять. Лысые хотят лечения, которое является как статистически, так и практически значимым; Это, вероятно, сработает, и если это так, это будет иметь большой эффект волосатости. Для научных публикаций часто требуется только статистическая значимость. Это привело к жалобам (за последние 50 лет), что тестирование статистической значимости является неправильным использованием статистики. ^[25]

Дноуглубительные работы

Извлечение данных - это злоупотребление интеллектуальным анализом данных . При выемке данных большие совокупности данных исследуются, чтобы найти корреляцию, без какого-либо заранее определенного выбора гипотезы для проверки. Поскольку требуемый доверительный интервал для установления взаимосвязи между двумя параметрами обычно выбирается равным 95% (это означает, что существует 95% -ная вероятность того, что наблюдаемая взаимосвязь не является случайной), таким образом, существует 5% -ная вероятность обнаружения корреляция между любыми двумя наборами полностью случайных величин. Учитывая, что при углублении данных обычно исследуются большие наборы данных со многими переменными и, следовательно, даже с большим количеством пар переменных, при любом таком исследовании почти наверняка будут получены ложные, но очевидно статистически значимые результаты.

Обратите внимание, что дноуглубительные работы - это действенный способ найти возможную гипотезу, но эта гипотеза должна быть затем проверена с данными, которые не использовались в первоначальной дноуглубительной работе. Неправильное использование происходит тогда, когда эта гипотеза констатируется как факт без дальнейшего подтверждения.

«Вы не можете законно проверить гипотезу на тех же данных, которые впервые предложили эту гипотезу. Решение очевидное. Как только у вас появится гипотеза, спланируйте исследование для поиска именно того эффекта, который, по вашему мнению, имеет место. статистически значимо, у вас наконец-то есть реальные доказательства ". ^[26]

Манипуляция данными

Эта практика, неофициально называемая «фальсификацией данных», включает выборочную отчетность (см. Также предвзятость публикации ) и даже просто сбор ложных данных.

Примеров выборочной отчетности предостаточно. Самые простые и наиболее распространенные примеры включают выбор группы результатов, которые следуют шаблону, соответствующему предпочтительной гипотезе, при игнорировании других результатов или «прогонов данных», которые противоречат гипотезе.

Психологи давно оспаривают исследования, демонстрирующие людей со способностями экстрасенсорного восприятия. Критики обвиняют сторонников ESP в том, что они публикуют только эксперименты с положительными результатами и откладывают в долгий ящик те, которые показывают отрицательные результаты. «Положительный результат» - это тестовый прогон (или прогон данных), в котором испытуемый угадывает скрытую карту и т. Д. С гораздо большей частотой, чем случайный случай . ^{[ необходима цитата ]}

Ученые, как правило, сомневаются в достоверности результатов исследования, которые не могут быть воспроизведены другими исследователями. Однако некоторые ученые отказываются публиковать свои данные и методы. ^[27]

Манипуляция данными - серьезная проблема / серьезная проблема для самого честного статистического анализа. Выбросы, недостающие данные и отклонения от нормы могут отрицательно повлиять на достоверность статистического анализа. Перед началом анализа целесообразно изучить данные и устранить реальные проблемы. «[В] любой диаграмме рассеяния будут некоторые точки, более или менее отделенные от основной части облака: эти точки должны быть отклонены только по причине». ^[28]

Другие заблуждения

Псевдорепликация - это техническая ошибка, связанная с дисперсионным анализом . Сложность скрывает тот факт, что статистический анализ проводится на единственной выборке (N = 1). Для этого вырожденного случая невозможно вычислить дисперсию (деление на ноль). Значение (N = 1) всегда дает исследователю наивысшую статистическую корреляцию между намеренной систематической ошибкой и фактическими результатами.

В ошибка игрока предполагает , что событие , для которого будущее вероятность может быть измерена была такая же вероятность происходит , как только это уже произошло. Таким образом, если кто-то уже подбросил 9 монет, и каждая из них выпала орлом, люди склонны предполагать, что вероятность того, что десятый бросок также будет орлом, составляет 1023 к 1 против (что было до того, как была подброшена первая монета), хотя на самом деле шанс выпадения десятой головы составляет 50% (при условии, что монета беспристрастна).

В заблуждение прокуратуры ^[29] привел, в Великобритании, чтобы Салли Кларк неправомерно осужден за убийство два своих сынов. В суде низкая статистическая вероятность (1 из 73 миллионов) двух детей женщины, умирающих от синдрома внезапной детской смерти, которую дал профессор сэр Рой Медоу, была неверно истолкована как свидетельствующая о низкой вероятности ее невиновности. Даже если при условии , вероятность двойного СВДСА, который позже был допрошен Королевским статистическим обществом , ^[30] были правильно один должно взвесить все возможные объяснения друг против друга , чтобы сделать вывод , на котором , скорее всего , вызвавший необъяснимые смерть двое детей. Имеющиеся данные показывают, что вероятность двойного СВДС будет выше, чем двойного убийства, в девять раз ^[31] ». Обвинительный приговор Салли Кларк был в конечном итоге отменен.

Игровое заблуждение . Вероятности основаны на простых моделях, которые игнорируют реальные (если и отдаленные) возможности. Игроки в покер не считают, что противник может вытащить пистолет, а не карту. Страхователи (и правительства) предполагают, что страховщики останутся платежеспособными, но видят AIG и системные риски .

Другие виды неправильного использования

Другие включают злоупотребления сравнений яблок и апельсины , используя неправильное среднем, ^[32] регрессии , ^[33] и зонтик фразу мусора в, мусоре . ^[34] Некоторые статистические данные просто не имеют отношения к проблеме. ^[35]

Квартет Анскомба - это вымышленный набор данных, который иллюстрирует недостатки простой описательной статистики (и ценность построения данных перед численным анализом).

Смотрите также

Обман
Этика в математике
Метанаука
Неправильное использование p-значений
Вводящий в заблуждение график
Постфактум анализ
Парадокс Симпсона
Statcheck

дальнейшее чтение

Кэмпбелл, Стивен (1974). Недостатки и заблуждения в статистическом мышлении . Прентис Холл. ISBN 0-486-43598-9.
Christensen, R .; Райхерт, Т. (1976). «Нарушения единичной меры при распознавании образов, неоднозначность и несоответствие». Распознавание образов . 8 (4): 239–245. DOI : 10.1016 / 0031-3203 (76) 90044-3 .
Эрджан И., Язычи Б., Ян Й., Озкая Г., Цангур С., Эдиз Б., Кан И. (2007). «Злоупотребление статистикой в медицинских исследованиях» (PDF) . Европейский журнал общей медицины . 4 (3): 127–133. DOI : 10.29333 / ejgm / 82507 . Архивировано 13 ноября 2014 года.CS1 maint: использует параметр авторов ( ссылка ) CS1 maint: неподходящий URL ( ссылка )
Эрджан И., Язычи Б., Окакоглу Г., Сигирли Д., Кан И. (2007). «Обзор надежности и факторов, влияющих на надежность» (PDF) . InterStat . Архивировано 28 августа 2013 года.CS1 maint: использует параметр авторов ( ссылка ) CS1 maint: неподходящий URL ( ссылка )
Фридман, Дэвид; Пизани, Роберт; Purves, Роджер (1998). Статистика (3-е изд.). WW Нортон. ISBN 978-0-393-97083-8.
Гук, Роберт (1983). Как отличить лжецов от статистиков . Нью-Йорк: М. Деккер. ISBN 0-8247-1817-8.
Хафф, Даррелл (1954). Как лгать со статистикой . WW Norton & Company. LCCN 53013322 . ПР 6138576М .
Канеман, Даниэль (2013). Думаю, быстро и медленно . Нью-Йорк: Фаррар, Штраус и Жиру. ISBN 9780374533557.
Мур, Дэвид; Маккейб, Джордж П. (2003). Введение в практику статистики (4-е изд.). Нью-Йорк: ISBN WH Freeman and Co. 0716796570.
Мур, Дэвид; Notz, Уильям I. (2006). Статистика: концепции и противоречия (6-е изд.). Нью-Йорк: WH Freeman. ISBN 9780716786368.
Спирер, Герберт; Спайрер, Луиза; Джаффе, AJ (1998). Неправильно используемая статистика (исправленное и дополненное 2-е изд.). Нью-Йорк: М. Деккер. ISBN 978-0824702113. Книга основана на нескольких сотнях примеров неправильного использования.
Олдберг, Т. и Р. Кристенсен (1995) «Ошибочная мера» в NDE для энергетической промышленности 1995 , Американское общество инженеров-механиков. ISBN 0-7918-1298-7 (страницы 1–6) Переиздано в Интернете на ndt.net
Олдберг, Т. (2005) «Этическая проблема в статистике надежности тестов на обнаружение дефектов», Речь перед главой «Золотые ворота» Американского общества неразрушающего контроля . Опубликовано в сети ndt.net
Стоун, М. (2009) Неспособность понять: дорогостоящее пренебрежение Уайтхоллом к статистическим рассуждениям , Civitas, Лондон. ISBN 1-906837-07-4
Galbraith, J .; Стоун, М. (2011). «Злоупотребление регрессией в формулах распределения Национальной службы здравоохранения: ответ на« исследовательский документ о распределении ресурсов »Министерства здравоохранения за 2007 год ». Журнал Королевского статистического общества, Series A . 174 (3): 517–528. DOI : 10.1111 / j.1467-985X.2010.00700.x .

[22] ^ Имеются некоторые данные о точности опросов. Что касается одного важного опроса правительства США: «Условно говоря, и ошибка выборки, и ошибка [систематической ошибки], не связанной с выборкой, очень малы». ^[20] Разница между голосами, предсказанными одним частным опросом, и фактическим подсчетом голосов на президентских выборах в США доступна для сравнения в разделе «Президентские предпочтения в год выборов: данные опроса Гэллапа: 1936–2012» . Прогнозы обычно рассчитывались на основе менее чем 5000 мнений вероятных избирателей. ^[21]

[FOOTNOTESpirerSpirerJaffe19981-1] Spirer, Spirer & Jaffe 1998 , стр. 1.

[2] Гарденье, Джон; Резник, Дэвид (2002). «Злоупотребление статистикой: концепции, инструменты и повестка дня исследований». Подотчетность в исследованиях: политика и обеспечение качества . 9 (2): 65–74. DOI : 10.1080 / 08989620212968 . PMID 12625352 . S2CID 24167609 .

[3] Фишер, Дэвид (1979). Заблуждения историков: к логике исторической мысли . Нью-Йорк: Харпер и Роу. С. 337–338. ISBN 978-0060904982.

[4] Страсак, Александр М .; Камруз Заман; Карл П. Пфайффер; Георг Гёбель; Ханно Ульмер (2007). «Статистические ошибки в медицинских исследованиях - обзор распространенных ошибок». Швейцарский медицинский еженедельник . 137 (3–4): 44–49. PMID 17299669 .В этой статье все, что не соответствует лучшей статистической практике, приравнивается к потенциальному злоупотреблению статистикой. На нескольких страницах обсуждается 47 потенциальных статистических ошибок; ошибки в дизайне исследования, анализе данных, документации, представлении и интерпретации. «[S] татистов следует вовлекать в разработку дизайна исследования на раннем этапе, поскольку ошибки на этом этапе могут иметь серьезные последствия, отрицательно влияя на все последующие этапы медицинского исследования».

[Indrayan2007-5] Индраян, Абхая (2007). «Статистические ошибки в ортопедических исследованиях» . Индийский журнал ортопедии . 41 (1): 37–46. DOI : 10.4103 / 0019-5413.30524 . PMC 2981893 . PMID 21124681 . Содержит богатый список медицинских злоупотреблений статистикой всех типов.

[FOOTNOTESpirerSpirerJaffe1998chapters_7_&_8-6] Spirer, Spirer & Jaffe 1998 , главы 7 и 8.

[FOOTNOTESpirerSpirerJaffe1998chapter_3-7] Spirer, Spirer & Jaffe 1998 , глава 3.

[FOOTNOTESpirerSpirerJaffe1998chapter_4-8] Spirer, Spirer & Jaffe 1998 , глава 4.

[9] Адлер, Роберт; Джон Юинг; Питер Тейлор (2009). «Статистика цитирования» . Статистическая наука . 24 (1): 1–14. DOI : 10.1214 / 09-STS285 .Научные статьи и журналы часто оцениваются по «влиянию» - количеству цитирований в более поздних публикациях. Математики и статистики приходят к выводу, что воздействие (хотя и относительно объективное) не является очень значимой мерой. «Опора исключительно на данные цитирования обеспечивает в лучшем случае неполное и часто поверхностное понимание исследования - понимание, которое действительно только тогда, когда оно подкреплено другими суждениями. Цифры по своей сути не превосходят здравые суждения».

[FOOTNOTESpirerSpirerJaffe1998chapter_title-10] Spirer, Spirer & Jaffe 1998 , название главы.

[FOOTNOTESpirerSpirerJaffe1998chapter_5-11] Spirer, Spirer & Jaffe 1998 , глава 5.

[12] Уэзерберн, Дон (ноябрь 2011 г.), «Использование и злоупотребление статистикой преступности» (PDF) , Бюллетень по преступности и правосудию: современные проблемы преступности и правосудия , Бюро статистики и исследований преступности штата Новый Южный Уэльс, 153 , ISBN 9781921824357, ISSN 1030-1046 , архивировано 21 июня 2014 г.CS1 садоводы: непригодная URL ( ссылка )В этом австралийском отчете о статистике преступности приводятся многочисленные примеры интерпретации и неверной интерпретации данных. «Расширение доступа СМИ к информации о преступности не сопровождалось повышением качества освещения преступлений в СМИ. Неправильное использование статистических данных о преступности в СМИ препятствует рациональным дебатам о правопорядке». Среди предполагаемых злоупотреблений СМИ: выборочное использование данных, выборочное сообщение фактов, вводящие в заблуждение комментарии, искажение фактов и вводящие в заблуждение заголовки. Милиция и политики также злоупотребляли статистикой.

[13] Кругман, Пол (1994). Торговля процветанием: экономический смысл и чепуха в эпоху заниженных ожиданий . Нью-Йорк: У.В. Нортон. п. 111 . ISBN 0-393-03602-2.

[FOOTNOTESpirerSpirerJaffe1998-14] Spirer, Spirer & Jaffe 1998 .

[FOOTNOTEKahneman2013102-15] Перейти ↑ Kahneman 2013 , p. 102.

[FOOTNOTEMooreNotz200659-16] Мур и Нотц 2006 , стр. 59.

[FOOTNOTEMooreNotz200697-17] Мур и Нотц 2006 , стр. 97.

[FOOTNOTEMooreMcCabe2003252–254-18] Перейти ↑ Moore & McCabe 2003 , pp. 252–254.

[FOOTNOTEMooreNotz200653,_Sample_surveys_in_the_real_world-19] Мур и Нотц 2006 , стр. 53. Выборочные опросы в реальном мире.

[FOOTNOTEFreedmanPisaniPurves1998chapter_22:_Measuring_Employment_and_Unemployment,_p._405-20] Freedman, Pisani & Purves 1998 , глава 22: Измерение занятости и безработицы, стр. 405.

[FOOTNOTEFreedmanPisaniPurves1998389–390-21] Перейти ↑ Freedman, Pisani & Purves 1998 , pp. 389–390.

[Farley2003-23] Фарли, Джон В. (2003). Барретт, Стивен (ред.). «Линии электропередач и рак: нечего бояться» . Quackwatch.

[powerlines-24] Винс, Гайя (2005-06-03). «Большое исследование связывает линии электропередач с детским раком» . Новый ученый . Архивировано 16 августа 2014 года.CS1 садоводы: непригодная URL ( ссылка ) Цитирует: Дрейпер, Г. (2005). «Детский рак в зависимости от расстояния от высоковольтных линий электропередач в Англии и Уэльсе: исследование случай-контроль» . BMJ . 330 (7503): 1290. DOI : 10.1136 / bmj.330.7503.1290 . PMC 558197 . PMID 15933351 .

[FOOTNOTEMooreMcCabe2003463-25] Перейти ↑ Moore & McCabe 2003 , pp. 463.

[Rozeboom1960-26] Розебум, Уильям У. (1960). «Ошибка проверки значимости нулевой гипотезы». Психологический бюллетень . 57 (5): 416–428. DOI : 10.1037 / h0042040 . PMID 13744252 .

[FOOTNOTEMooreMcCabe2003466-27] Перейти ↑ Moore & McCabe 2003 , p. 466.

[28] Нейлон, К. (2009). «Ученые возглавляют движение к открытому обмену данными» . Информация об исследованиях . Европа Наука. 41 : 22–23. ISSN 1744-8026 . Архивировано 3 декабря 2013 года.CS1 садоводы: непригодная URL ( ссылка )

[fpp3-29] Freedman, Pisani & Purves 1998 , глава 9: Подробнее о корреляциях, §3: Некоторые исключительные случаи

[30] Сейф, Чарльз (2011). Доказательство: как вас обманывают числа . Нью-Йорк: Пингвин. стр. 203–205 и Приложение C. ISBN 9780143120070. Обсуждает пресловутый британский случай.

[rss2-31] Королевское статистическое общество (23 октября 2001 г.). " «Королевское статистическое общество обеспокоено проблемами, поднятыми в деле Салли Кларк» (PDF) . Архивировано из оригинального (PDF) 24 августа 2011 года. (28,0 КБ) "

[32] Хилл, Р. (2004). «Множественные внезапные смерти младенцев - совпадение или несостоятельность?». Детская и перинатальная эпидемиология . 18 (5): 320–6. DOI : 10.1111 / j.1365-3016.2004.00560.x . PMID 15367318 .

[FOOTNOTEHuff1954chapter_2-33] Перейти ↑ Huff 1954 , глава 2.

[FOOTNOTEKahneman2013chapter_17-34] Перейти ↑ Kahneman 2013 , глава 17.

[FOOTNOTEHooke1983§50-35] Гук 1983 , § 50..

[FOOTNOTECampbell1974[httpsbooksgooglecombooksidGtSV7rG6Iu4CpgPA25_chapter_3:_Meaningless_statistics]-36] Кэмпбелл 1974 , глава 3: бессмысленная статистика .

[1]