Неправильное использование статистики

Статистические данные , используемые в ложном виде, могут обмануть случайного наблюдателя, чтобы он поверил чему-то другому, кроме того, что показывают данные . То есть неправильное использование статистики происходит, когда статистический аргумент утверждает ложь . В некоторых случаях неправильное использование может быть случайным. В других случаях это делается целенаправленно и ради выгоды преступника. Когда задействованная статистическая причина ложна или используется неправильно, это составляет статистическую ошибку .

Ловушка ложной статистики может нанести серьезный ущерб поиску знаний. Например, в медицине исправление фальши может занять десятилетия и стоить жизни.

Неправильное использование может быть легким. Профессиональных ученых, даже математиков и профессиональных статистиков, можно обмануть даже некоторыми простыми методами, даже если они тщательно все проверяют. Известно, что ученые обманывают себя статистикой из-за незнания теории вероятностей и отсутствия стандартизации своих тестов .

Определение, ограничения и контекст

Одно из применимых определений: «Злоупотребление статистикой: использование чисел таким образом, что - либо намеренно, либо из-за незнания или небрежности - выводы являются необоснованными или неверными». ^[1] «Числа» включают вводящие в заблуждение графики, обсуждаемые в другом месте. Этот термин не часто встречается в статистических текстах, и его авторитетное определение неизвестно. Это обобщение лжи со статистикой, которая была подробно описана статистиками 60 лет назад.

Определение сталкивается с некоторыми проблемами (некоторые рассматриваются источником): ^[2]

Статистика обычно производит вероятности; выводы являются предварительными
В предварительных выводах есть ошибки и процент ошибок. Обычно 5% предварительных выводов теста значимости неверны
Статистики не полностью согласны с идеальными методами.
Статистические методы основаны на допущениях, которые редко полностью выполняются.
Сбор данных обычно ограничивается этическими, практическими и финансовыми ограничениями.

Как Ли с статистикой признаетчто статистика может законно принимать различные формы. Независимо от цифр, можно спорить о том, является ли продукт «легким и экономичным» или «хрупким и дешевым». Некоторые возражают против подмены морального лидерства (например) статистической корректностью в качестве цели. Винить в злоупотреблениях часто сложно, потому что ученые, социологи, статистики и репортеры часто являются сотрудниками или консультантами.

Коварное злоупотребление (?) Статистикой завершается слушателем / наблюдателем / аудиторией / присяжным заседателем. Поставщик предоставляет «статистику» в виде чисел или графиков (или фотографий до / после), позволяя потребителю сделать (возможно, необоснованные или неверные) выводы. Плохое состояние государственной статистической грамотности и нестатистический характер человеческой интуиции позволяют вводить в заблуждение без явных ложных выводов. Это слабое определение ответственности потребителя статистики.

Историк перечислил более 100 заблуждений в десятке категорий, включая те, которые связаны с обобщением и причинно-следственной связью. ^[3] Некоторые из заблуждений являются явно или потенциально статистическими, включая выборку, статистическую бессмыслицу, статистическую вероятность, ложную экстраполяцию, ложную интерполяцию и коварное обобщение. Все технические / математические проблемы прикладной вероятности укладываются в единственное перечисленное заблуждение статистической вероятности. Многие из заблуждений могут быть связаны со статистическим анализом, что делает возможным ложное заключение, вытекающее из безупречного статистического анализа.

Пример использования статистики - анализ медицинских исследований. Этот процесс включает ^[4]^[5] экспериментальное планирование, проведение эксперимента, анализ данных, создание логических выводов и представление / отчет. Отчет подготовлен популярной прессой и рекламодателями. Неправильное использование статистики может быть результатом проблем на любом этапе процесса. Статистические стандарты, которые в идеале налагаются на научный отчет, сильно отличаются от тех, которые навязываются популярной прессе и рекламодателям; однако бывают случаи, когда реклама замаскирована под науку . Определение неправомерного использования статистики является слабым в отношении требуемой полноты статистической отчетности. Высказывается мнение, что газеты должны предоставлять хотя бы источник публикуемой статистики.

Простые причины

Многие злоупотребления статистикой происходят из-за того, что

Источник - предметный эксперт, а не статистик. ^[6] Источник может неправильно использовать метод или интерпретировать результат.
Источник - статистик, а не предметный эксперт. ^[7] Эксперт должен знать, когда сравниваемые числа описывают разные вещи. Цифры меняются, в отличие от реальности, когда меняются юридические определения или политические границы.
Изучаемый предмет четко не определен. ^[8] Несмотря на то, что IQ-тесты доступны и числовые, трудно определить, что они измеряют; Интеллект - понятие неуловимое. Публикация "воздействия" имеет ту же проблему. ^[9] На первый взгляд простой вопрос о количестве слов в английском языке сразу же встречает вопросы об архаичных формах, учете префиксов и суффиксов, множественных определениях слова, вариантах написания, диалектах, причудливых творениях (например, эктопластике из эктоплазмы и статистике) , ^[10] техническая лексика ...
Качество данных низкое. ^[11] Примером может служить одежда. Люди имеют широкий диапазон размеров и форм тела. Очевидно, что размеры одежды должны быть многомерными. Вместо этого он сложен в неожиданных отношениях. Некоторая одежда продается только по размеру (без явного учета формы тела), размеры зависят от страны и производителя, а некоторые размеры намеренно вводят в заблуждение. Хотя размеры являются числовыми, возможен только самый грубый статистический анализ с использованием чисел размера с осторожностью.
Популярная пресса имеет ограниченный опыт и неоднозначные мотивы. ^[12] Если факты не заслуживают освещения в печати (что может потребовать преувеличения), они не могут быть опубликованы. Мотивы рекламодателей еще более неоднозначны.
«Политики используют статистику так же, как пьяный использует фонарные столбы - для поддержки, а не для освещения» - Эндрю Лэнг (WikiQuote) «Чему мы учимся из этих двух способов взглянуть на одни и те же числа? Мы узнаем, что умный пропагандист , направо или налево, почти всегда может найти способ представить данные об экономическом росте, которые, кажется, подтверждают ее позицию. И поэтому мы также учимся брать любой статистический анализ из сильно политизированного источника с горстью соли ". ^[13] Термин «статистика» происходит от цифр, генерируемых и используемых государством. Хорошее правительство может потребовать точных цифр, но популярное правительство может потребовать подтверждающих цифр (не обязательно одинаковых). «Использование и неправильное использование статистики правительствами - древнее искусство». ^[14]

Типы неправомерного использования

Отказ от неблагоприятных наблюдений

Все, что нужно сделать компании для продвижения нейтрального (бесполезного) продукта, - это найти или провести, например, 40 исследований с уровнем достоверности 95%. Если продукт действительно бесполезен, в среднем будет проведено одно исследование, показывающее, что продукт полезен, одно исследование, показывающее, что он вреден, и тридцать восемь безрезультатных исследований (38 - 95% из 40). Эта тактика становится тем более эффективной, чем больше доступно исследований. Организации, которые не публикуют все исследования, которые они проводят, например табачные компании, отрицающие связь между курением и раком, группы по защите интересов курения и средства массовой информации, пытающиеся доказать связь между курением и различными заболеваниями, или продавцы чудодейственных таблеток, скорее всего, используйте эту тактику.

Рональд Фишер рассматривал этот вопрос в своем знаменитом эксперименте с дегустацией чая (из его книги 1935 года « План экспериментов» ). Что касается повторных экспериментов, он сказал: «Это было бы явно незаконным и лишило бы наших расчетов его основы, если бы не все неудачные результаты были учтены».

Еще один термин, связанный с этим понятием, - сбор вишни .

Игнорирование важных функций

Наборы данных с несколькими переменными имеют две или более функции / измерения . Если для анализа выбрано слишком мало этих функций (например, если выбрана только одна функция и выполняется простая линейная регрессия вместо множественной линейной регрессии ), результаты могут вводить в заблуждение. Это делает аналитика уязвимым для любого из различных статистических парадоксов или в некоторых (не во всех) случаях ложной причинности, как показано ниже.

Загруженные вопросы

Ответами на опросы часто можно манипулировать, формулируя вопрос таким образом, чтобы респондент склонялся к определенному ответу. Например, при опросе в поддержку войны вопросы:

Поддерживаете ли вы попытку США принести свободу и демократию в другие места в мире?
Поддерживаете ли вы неспровоцированную военную акцию США?

вероятно, приведет к искажению данных в разные стороны, хотя они оба опрашивают поддержку войны. Лучше сформулировать вопрос: «Поддерживаете ли вы нынешние военные действия США за границей?» Еще более почти нейтральный способ задать этот вопрос: «Что вы думаете о текущих военных действиях США за рубежом?» Дело должно быть в том, что у человека, которого спрашивают, нет возможности угадать по формулировке, что спрашивающий может захотеть услышать.

Другой способ сделать это - поставить перед вопросом перед вопросом информацию, которая поддерживает «желаемый» ответ. Например, больше людей, скорее всего, ответят «да» на вопрос «Учитывая растущее налоговое бремя для семей среднего класса, поддерживаете ли вы снижение подоходного налога?» чем на вопрос «Учитывая растущий дефицит федерального бюджета и острую потребность в увеличении доходов, поддерживаете ли вы снижение подоходного налога?»

Правильная формулировка вопросов может быть очень тонкой. Ответы на два вопроса могут сильно отличаться в зависимости от порядка, в котором они задаются. ^[15] «Опрос, в котором задавался вопрос о« владении акциями », показал, что большинство техасских владельцев ранчо владеют акциями, хотя, вероятно, не такими, которые торгуются на Нью-Йоркской фондовой бирже». ^[16]

Чрезмерное обобщение

Чрезмерное обобщение - это заблуждение, возникающее, когда утверждается, что статистические данные о конкретной популяции справедливы среди членов группы, для которой исходная популяция не является репрезентативной выборкой.

Например, предположим, что 100% яблок летом красные. Утверждение «Все яблоки красные» было бы примером чрезмерного обобщения, потому что исходная статистика верна только для определенного подмножества яблок (летом), которое, как ожидается, не будет репрезентативным для популяции яблок в целом.

Реальный пример ошибки чрезмерного обобщения можно наблюдать как артефакт современных методов опроса, которые запрещают звонить на сотовые телефоны для политических опросов по телефону. Поскольку молодые люди чаще, чем другие демографические группы, не имеют обычного «стационарного» телефона, телефонный опрос, в ходе которого опрашивается исключительно респондентов на звонки на стационарные телефоны, может привести к тому, что результаты опроса не будут отражать мнения молодых людей, если не будут приняты другие меры. чтобы учесть этот перекос выборки. Таким образом, опрос, изучающий предпочтения молодых людей при голосовании с использованием этого метода, может не дать совершенно точного представления об истинных предпочтениях молодых людей при голосовании в целом без чрезмерного обобщения, потому что использованная выборка исключает молодых людей, которые носят только мобильные телефоны, которые могут или могут не иметь предпочтений при голосовании, которые отличаются от предпочтений остального населения.

Чрезмерное обобщение часто происходит, когда информация передается через нетехнические источники, в частности через СМИ.

Предвзятые образцы

Ученые ценой больших затрат осознали, что сбор хороших экспериментальных данных для статистического анализа затруднен. Пример: эффект плацебо (разум выше тела) очень силен. У 100% субъектов появилась сыпь при воздействии инертного вещества, которое ошибочно назвали ядовитым плющом, в то время как у немногих появилась сыпь на "безвредном" предмете, которым на самом деле был ядовитый плющ. ^[17] Исследователи борются с этим эффектом с помощью двойных слепых рандомизированных сравнительных экспериментов . Статистики обычно больше беспокоятся о достоверности данных, чем об анализе. Это отражено в области исследований в статистике, известной как план экспериментов .

Опросники ценой больших затрат узнали, что сбор хороших данных опросов для статистического анализа затруднен. Селективное влияние сотовых телефонов на сбор данных (обсуждается в разделе «Обобщение») является одним из возможных примеров; Если молодые люди с традиционными телефонами не являются репрезентативными, выборка может быть необъективной. Выборочные опросы имеют множество подводных камней и требуют большой осторожности при проведении. ^[18] Одно усилие потребовало почти 3000 телефонных звонков, чтобы получить 1000 ответов. Простая случайная выборка населения «непроста и не может быть случайной». ^[19]

Неверное сообщение или неправильное понимание предполагаемой ошибки

Если исследовательская группа хочет знать, что думают 300 миллионов человек по определенной теме, было бы непрактично спрашивать их всех. Однако, если команда выберет случайную выборку из примерно 1000 человек, они могут быть достаточно уверены, что результаты, данные этой группой, репрезентативны для того, что бы сказала большая группа, если бы их всех спросили.

Эта уверенность может быть фактически определена количественно с помощью центральной предельной теоремы и других математических результатов. Уверенность выражается как вероятность того, что истинный результат (для большей группы) находится в пределах определенного диапазона оценки (цифра для меньшей группы). Это показатель «плюс-минус», который часто приводится в статистических обследованиях. Вероятностная часть уровня уверенности обычно не упоминается; в таком случае предполагается, что это стандартное число, например 95%.

Эти два числа связаны. Если обследование имеет оценочную ошибку ± 5% при доверительной вероятности 95%, она также имеет оценочную ошибку ± 6,6% при достоверности 99%. ± ${\ displaystyle x}$ % при доверительной вероятности 95% всегда ± ${\ displaystyle 1.32x}$ % при достоверности 99% для нормально распределенной популяции.

Чем меньше оценочная ошибка, тем больше требуется выборка при заданном уровне достоверности.

при достоверности 95,4% :

± 1% потребует 10 000 человек.
± 2% потребуется 2500 человек.
± 3% потребуется 1111 человек.
± 4% потребуется 625 человек.
± 5% потребуется 400 человек.
± 10% потребуется 100 человек.
± 20% потребует 25 человек.
± 25% потребуется 16 человек.
± 50% потребуется 4 человека.

Люди могут предположить, поскольку показатель достоверности опущен, что существует 100% уверенность в том, что истинный результат находится в пределах оцененной ошибки. Это неверно с математической точки зрения.

Многие люди могут не осознавать, что случайность выборки очень важна. На практике многие опросы общественного мнения проводятся по телефону, что искажает выборку несколькими способами, включая исключение людей, у которых нет телефонов, поддержку включения людей, у которых есть более одного телефона, и включение людей, которые готовы участвовать в телефонном опросе тех, кто отказывается, и т. д. Неслучайная выборка делает оценку ошибки ненадежной.

С другой стороны, люди могут считать статистику ненадежной по своей природе, потому что не все звонят или потому что их самих никогда не опрашивают. Люди могут подумать, что невозможно получить данные о мнении десятков миллионов людей, просто опросив несколько тысяч. Это тоже неточно. ^[a] Опрос с идеальной беспристрастной выборкой и правдивыми ответами имеет математически определенную погрешность , которая зависит только от количества опрошенных людей.

Однако часто в опросе указывается только одна погрешность. Когда результаты сообщаются для подгрупп населения, будет применяться большая погрешность, но это может быть неясно. Например, опрос 1000 человек может включать 100 человек из определенной этнической или экономической группы. Результаты, ориентированные на эту группу, будут гораздо менее надежными, чем результаты для всего населения. Если допустимая погрешность для полной выборки составляла, скажем, 4%, то погрешность для такой подгруппы могла бы составлять около 13%.

Есть также много других проблем измерения при обследованиях населения.

Упомянутые выше проблемы относятся ко всем статистическим экспериментам, а не только к опросам населения.

Ложная причинность

Когда статистический тест показывает корреляцию между A и B, обычно существует шесть возможностей:

А вызывает Б.
B вызывает A.
A и B оба частично вызывают друг друга.
И A, и B вызваны третьим фактором C.
B вызван C, который коррелирует с A.
Наблюдаемая корреляция была чисто случайной.

Шестую возможность можно количественно оценить с помощью статистических тестов, которые могут вычислить вероятность того, что наблюдаемая корреляция будет такой же большой, как и случайность, если на самом деле нет взаимосвязи между переменными. Однако, даже если эта возможность имеет небольшую вероятность, есть еще пять других.

Если количество людей, покупающих мороженое на пляже, статистически связано с количеством людей, которые тонут на пляже, тогда никто не станет утверждать, что мороженое вызывает утопление, потому что очевидно, что это не так. (В этом случае и утопление, и покупка мороженого явно связаны третьим фактором: количеством людей на пляже).

Это заблуждение можно использовать, например, для доказательства того, что воздействие химического вещества вызывает рак. Замените «количество людей, покупающих мороженое» на «количество людей, подвергшихся воздействию химического вещества X», а «количество утонувших» на «количество людей, заболевших раком», и многие люди вам поверят. В такой ситуации может существовать статистическая корреляция, даже если нет реального эффекта. Например, если есть мнение, что химический объект «опасен» (даже если это действительно не так), стоимость собственности в этом районе будет уменьшаться, что побудит больше семей с низкими доходами переехать в этот район. Если в семьях с низким доходом больше шансов заболеть раком, чем в семьях с высоким доходом (например, из-за плохого питания или ограниченного доступа к медицинскому обслуживанию), то уровень заболеваемости раком возрастет, даже если химическое вещество само по себе не опасно. Считается ^[22], что именно это и произошло с некоторыми из ранних исследований, показывающих связь между ЭМП ( электромагнитными полями ) от линий электропередач и раком . ^[23]

В хорошо спланированных исследованиях эффект ложной причинно-следственной связи может быть устранен путем случайного отнесения некоторых людей к «экспериментальной группе», а некоторых - к «контрольной группе», а также предоставления лечебной группе лечения и отказа от контрольной группы. лечение. В приведенном выше примере исследователь может подвергнуть одну группу людей воздействию химического вещества X и оставить вторую группу незащищенными. Если первая группа имела более высокий уровень заболеваемости раком, исследователь знает, что не существует третьего фактора, влияющего на то, подвергся ли человек воздействию, потому что он контролировал, кто подвергался воздействию или нет, и он распределил людей в группы, подвергшиеся и не подвергавшиеся воздействию, случайным образом. Однако во многих приложениях на самом деле проведение эксперимента таким образом либо чрезмерно дорого, либо невозможно, неэтично, незаконно или совершенно невозможно. Например, очень маловероятно, что IRB согласится с экспериментом, который включал намеренное воздействие на людей опасного вещества с целью проверки его токсичности. Очевидные этические последствия таких экспериментов ограничивают возможности исследователей эмпирически проверить причинно-следственную связь.

Доказательство нулевой гипотезы

В статистическом тесте нулевая гипотеза ( ${\ displaystyle H_ {0}}$ ) считается действительным, пока достаточное количество данных не докажет, что это неверно. потом ${\ displaystyle H_ {0}}$ отвергается и альтернативная гипотеза ( ${\ displaystyle H_ {A}}$ ) считается правильным. Случайно такое может случиться, хотя ${\ displaystyle H_ {0}}$ верно, с вероятностью, обозначенной ${\ displaystyle \ alpha}$ (уровень значимости). Это можно сравнить с судебным процессом, где обвиняемый считается невиновным ( ${\ displaystyle H_ {0}}$ ) до тех пор, пока виновность не будет доказана ( ${\ displaystyle H_ {A}}$ ) при отсутствии обоснованного сомнения ( ${\ displaystyle \ alpha}$ ).

Но если данные не дают нам достаточно доказательств, чтобы отклонить это ${\ displaystyle H_ {0}}$ , это не означает автоматически, что ${\ displaystyle H_ {0}}$ верно. Если, например, производитель табака желает продемонстрировать безопасность своей продукции, он может легко провести тест с небольшой выборкой курильщиков по сравнению с небольшой выборкой некурящих. Маловероятно, что у кого-либо из них разовьется рак легких (и даже если они это сделают, разница между группами должна быть очень большой, чтобы ${\ displaystyle H_ {0}}$ ). Следовательно, вероятно, даже если курение опасно, наш тест не отклонит ${\ displaystyle H_ {0}}$ . Если ${\ displaystyle H_ {0}}$ Принято считать, что это автоматически не означает, что курение безвредно. У теста недостаточно мощности для отклонения ${\ displaystyle H_ {0}}$ , поэтому тест бесполезен и ценность «доказательства» ${\ displaystyle H_ {0}}$ также равно нулю.

Это можно - используя приведенный выше судебный аналог - сравнить с действительно виновным обвиняемым, освобожденным только потому, что доказательств недостаточно для вынесения обвинительного приговора. Это не доказывает невиновность подсудимого, а только то, что доказательств недостаточно для вынесения обвинительного приговора.

«... нулевая гипотеза никогда не доказывается и не устанавливается, но она, возможно, опровергается в ходе экспериментов. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу». (Фишер в « Планировании экспериментов» ) Существует множество причин для путаницы, включая использование двойной отрицательной логики и терминологии в результате слияния «проверки значимости» Фишера (где нулевая гипотеза никогда не принимается) с «проверкой гипотез» (где некоторая гипотеза всегда принимается).

Смешение статистической значимости с практической значимостью

Статистическая значимость - это мера вероятности; практическое значение - мера эффекта. ^[24] Лекарство от облысения является статистически значимым, если редкий персиковый пушок обычно покрывает ранее обнаженную кожу головы. Вылечить можно практически, когда шляпа больше не требуется в холодную погоду и парикмахер спрашивает, сколько ее снять. Лысые хотят лечения, которое является как статистически, так и практически значимым; Это, вероятно, сработает, и если это так, это будет иметь большой эффект волосатости. Для научных публикаций часто требуется только статистическая значимость. Это привело к жалобам (за последние 50 лет), что тестирование статистической значимости является неправильным использованием статистики. ^[25]

Дноуглубительные работы

Извлечение данных - это злоупотребление интеллектуальным анализом данных . При выемке данных большие совокупности данных исследуются, чтобы найти корреляцию, без какого-либо заранее определенного выбора гипотезы для проверки. Поскольку требуемый доверительный интервал для установления взаимосвязи между двумя параметрами обычно выбирается равным 95% (это означает, что существует 95% -ная вероятность того, что наблюдаемая взаимосвязь не является случайной), таким образом, существует 5% -ная вероятность обнаружения корреляция между любыми двумя наборами полностью случайных величин. Учитывая, что при углублении данных обычно исследуются большие наборы данных со многими переменными и, следовательно, даже с большим количеством пар переменных, при любом таком исследовании почти наверняка будут получены ложные, но очевидно статистически значимые результаты.

Обратите внимание, что дноуглубительные работы - это действенный способ найти возможную гипотезу, но затем эту гипотезу необходимо проверить с данными, которые не использовались в первоначальной дноуглубительной работе. Неправильное использование происходит тогда, когда эта гипотеза констатируется как факт без дальнейшего подтверждения.

«Вы не можете законно проверить гипотезу на тех же данных, которые впервые предложили эту гипотезу. Решение очевидное. Как только у вас появится гипотеза, спланируйте исследование для поиска именно того эффекта, который, по вашему мнению, имеет место. статистически значимо, у вас наконец-то есть реальные доказательства ". ^[26]

Манипуляция данными

Эта практика, неофициально называемая «фальсификацией данных», включает выборочную отчетность (см. Также предвзятость публикации ) и даже просто сбор ложных данных.

Примеров выборочной отчетности предостаточно. Самые простые и наиболее распространенные примеры включают выбор группы результатов, которые следуют шаблону, соответствующему предпочтительной гипотезе, при игнорировании других результатов или «прогонов данных», которые противоречат гипотезе.

Психологи давно оспаривают исследования, демонстрирующие людей со способностями экстрасенсорного восприятия. Критики обвиняют сторонников ESP в том, что они публикуют только эксперименты с положительными результатами и откладывают в долгий ящик те, которые показывают отрицательные результаты. «Положительный результат» - это тестовый прогон (или прогон данных), в котором испытуемый угадывает скрытую карту и т. Д. С гораздо большей частотой, чем случайный случай . ^{[ необходима цитата ]}

Ученые, как правило, сомневаются в достоверности результатов исследования, которые не могут быть воспроизведены другими исследователями. Однако некоторые ученые отказываются публиковать свои данные и методы. ^[27]

Манипуляция данными - серьезная проблема / серьезная проблема для самого честного статистического анализа. Выбросы, недостающие данные и отклонения от нормы могут отрицательно повлиять на достоверность статистического анализа. Перед началом анализа целесообразно изучить данные и устранить реальные проблемы. «[В] любой диаграмме рассеяния будут некоторые точки, более или менее отделенные от основной части облака: эти точки должны быть отклонены только по причине». ^[28]

Другие заблуждения

Псевдорепликация - это техническая ошибка, связанная с дисперсионным анализом . Сложность скрывает тот факт, что статистический анализ проводится на единственной выборке (N = 1). Для этого вырожденного случая невозможно вычислить дисперсию (деление на ноль). Значение (N = 1) всегда дает исследователю наивысшую статистическую корреляцию между намеренной систематической ошибкой и фактическими результатами.

В ошибка игрока предполагает , что событие , для которого будущее вероятность может быть измерена была такая же вероятность происходит , как только это уже произошло. Таким образом, если кто-то уже подбросил 9 монет, и каждая из них выпала орлом, люди склонны предполагать, что вероятность того, что десятый бросок также будет орлом, составляет 1023 к 1 против (что было до того, как была подброшена первая монета), хотя на самом деле шанс выпадения десятой головы составляет 50% (при условии, что монета беспристрастна).

В заблуждение прокуратуры ^[29] привел, в Великобритании, чтобы Салли Кларк неправомерно осужден за убийство два своих сынов. В суде низкая статистическая вероятность (1 из 73 миллионов) двух детей женщины, умирающих от синдрома внезапной детской смерти, которую дал профессор сэр Рой Медоу, была неверно истолкована как свидетельствующая о низкой вероятности ее невиновности. Даже если при условии , вероятность двойного СВДСА, который позже был допрошен Королевским статистическим обществом , ^[30] были правильно один должно взвесить все возможные объяснения друг против друга , чтобы сделать вывод , на котором , скорее всего , вызвавший необъяснимые смерть двое детей. Имеющиеся данные показывают, что вероятность двойного СВДС будет выше, чем двойного убийства, в девять раз ^[31] ». Обвинительный приговор Салли Кларк был в конечном итоге отменен.

Игровое заблуждение . Вероятности основаны на простых моделях, которые игнорируют реальные (если и отдаленные) возможности. Игроки в покер не считают, что противник может вытащить пистолет, а не карту. Страхователи (и правительства) предполагают, что страховщики останутся платежеспособными, но видят AIG и системные риски .

Другие виды неправильного использования

Другие включают злоупотребления сравнений яблок и апельсины , используя неправильное среднем, ^[32] регрессии , ^[33] и зонтик фразу мусора в, мусоре . ^[34] Некоторые статистические данные просто не имеют отношения к проблеме. ^[35]

Anscombe's quartet is a made-up dataset that exemplifies the shortcomings of simple descriptive statistics (and the value of data plotting before numerical analysis).

Смотрите также

Deception
Ethics in mathematics
Metascience
Misuse of p-values
Misleading graph
Post hoc analysis
Simpson's paradox
Statcheck

дальнейшее чтение

Campbell, Stephen (1974). Flaws and fallacies in statistical thinking. Prentice Hall. ISBN 0-486-43598-9.
Christensen, R.; Reichert, T. (1976). "Unit Measure Violations in Pattern Recognition, Ambiguity and Irrelevancy". Pattern Recognition. 8 (4): 239–245. doi:10.1016/0031-3203(76)90044-3.
Ercan I, Yazici B, Yang Y, Ozkaya G, Cangur S, Ediz B, Kan I (2007). "Misusage of Statistics in Medical Researches" (PDF). European Journal of General Medicine. 4 (3): 127–133. doi:10.29333/ejgm/82507. Archived from the original on November 13, 2014.CS1 maint: uses authors parameter (link) CS1 maint: unfit URL (link)
Ercan I, Yazici B, Ocakoglu G, Sigirli D, Kan I (2007). "Review of Reliability and Factors Affecting the Reliability" (PDF). InterStat. Archived from the original on August 28, 2013.CS1 maint: uses authors parameter (link) CS1 maint: unfit URL (link)
Freedman, David; Pisani, Robert; Purves, Roger (1998). Statistics (3rd ed.). W.W. Norton. ISBN 978-0-393-97083-8.
Hooke, Robert (1983). How to tell the liars from the statisticians. New York: M. Dekker. ISBN 0-8247-1817-8.
Huff, Darrell (1954). How to Lie with Statistics. W. W. Norton & Company. LCCN 53013322. OL 6138576M.
Kahneman, Daniel (2013). Thinking, fast and slow. New York: Farrar, Straus and Giroux. ISBN 9780374533557.
Moore, David; McCabe, George P. (2003). Introduction to the practice of statistics (4th ed.). New York: W.H. Freeman and Co. ISBN 0716796570.
Moore, David; Notz, William I. (2006). Statistics: concepts and controversies (6th ed.). New York: W.H. Freeman. ISBN 9780716786368.
Spirer, Herbert; Spirer, Louise; Jaffe, A. J. (1998). Misused statistics (revised and expanded 2nd ed.). New York: M. Dekker. ISBN 978-0824702113. The book is based on several hundred examples of misuse.
Oldberg, T. and R. Christensen (1995) "Erratic Measure" in NDE for the Energy Industry 1995, The American Society of Mechanical Engineers. ISBN 0-7918-1298-7 (pages 1–6) Republished on the Web by ndt.net
Oldberg, T. (2005) "An Ethical Problem in the Statistics of Defect Detection Test Reliability," Speech to the Golden Gate Chapter of the American Society for Nondestructive Testing. Published on the Web by ndt.net
Stone, M. (2009) Failing to Figure: Whitehall's Costly Neglect of Statistical Reasoning, Civitas, London. ISBN 1-906837-07-4
Galbraith, J.; Stone, M. (2011). "The abuse of regression in the National Health Service allocation formulae: Response to the Department of Health's 2007 'resource allocation research paper'". Journal of the Royal Statistical Society, Series A. 174 (3): 517–528. doi:10.1111/j.1467-985X.2010.00700.x.

[22] Some data on accuracy of polls is available. Regarding one important poll by the U.S. government, "Relatively speaking, both sampling error and non-sampling [bias] error are tiny."^[20] The difference between the votes predicted by one private poll and the actually tally for American presidential elections is available for comparison at "Election Year Presidential Preferences: Gallup Poll Accuracy Record: 1936–2012". The predictions were typically calculated on the basis of less than 5000 opinions by likely voters.^[21]

[FOOTNOTESpirerSpirerJaffe19981-1] Spirer, Spirer & Jaffe 1998, p. 1.

[2] Gardenier, John; Resnik, David (2002). "The misuse of statistics: concepts, tools, and a research agenda". Accountability in Research: Policies and Quality Assurance. 9 (2): 65–74. doi:10.1080/08989620212968. PMID 12625352. S2CID 24167609.

[3] Fischer, David (1979). Historians' fallacies: toward a logic of historical thought. New York: Harper & Row. pp. 337–338. ISBN 978-0060904982.

[4] Strasak, Alexander M.; Qamruz Zaman; Karl P. Pfeiffer; Georg Göbel; Hanno Ulmer (2007). "Statistical errors in the medical research-a review of common pitfalls". Swiss Medical Weekly. 137 (3–4): 44–49. PMID 17299669. In this article anything less than the best statistical practice is equated to the potential misuse of statistics. In a few pages 47 potential statistical errors are discussed; errors in study design, data analysis, documentation, presentation and interpretation. "[S]tatisticians should be involved early in study design, as mistakes at this point can have major repercussions, negatively affecting all subsequent stages of medical research."

[Indrayan2007-5] Indrayan, Abhaya (2007). "Statistical fallacies in orthopedic research". Indian Journal of Orthopaedics. 41 (1): 37–46. doi:10.4103/0019-5413.30524. PMC 2981893. PMID 21124681. Contains a rich list of medical misuses of statistics of all types.

[FOOTNOTESpirerSpirerJaffe1998chapters_7_&_8-6] Spirer, Spirer & Jaffe 1998, chapters 7 & 8.

[FOOTNOTESpirerSpirerJaffe1998chapter_3-7] Spirer, Spirer & Jaffe 1998, chapter 3.

[FOOTNOTESpirerSpirerJaffe1998chapter_4-8] Spirer, Spirer & Jaffe 1998, chapter 4.

[9] Adler, Robert; John Ewing; Peter Taylor (2009). "Citation statistics". Statistical Science. 24 (1): 1–14. doi:10.1214/09-STS285. Scientific papers and scholarly journals are often rated by "impact" - the number of times cited by later publications. Mathematicians and statisticians conclude that impact (while relatively objective) is not a very meaningful measure. "The sole reliance on citation data provides at best an incomplete and often shallow understanding of research—an understanding that is valid only when reinforced by other judgments. Numbers are not inherently superior to sound judgments."

[FOOTNOTESpirerSpirerJaffe1998chapter_title-10] Spirer, Spirer & Jaffe 1998, chapter title.

[FOOTNOTESpirerSpirerJaffe1998chapter_5-11] Spirer, Spirer & Jaffe 1998, chapter 5.

[12] Weatherburn, Don (November 2011), "Uses and abuses of crime statistics" (PDF), Crime and Justice Bulletin: Contemporary Issues in Crime and Justice, NSW Bureau of Crime Statistics and Research, 153, ISBN 9781921824357, ISSN 1030-1046, archived from the original on June 21, 2014CS1 maint: unfit URL (link) This Australian report on crime statistics provides numerous examples of interpreting and misinterpreting the data. "The increase in media access to information about crime has not been matched by an increase in the quality of media reporting on crime. The misuse of crime statistics by the media has impeded rational debate about law and order." Among the alleged media abuses: selective use of data, selective reporting of facts, misleading commentary, misrepresentation of facts and misleading headlines. Police and politicians also abused the statistics.

[13] Krugman, Paul (1994). Peddling prosperity: economic sense and nonsense in the age of diminished expectations. New York: W.W. Norton. p. 111. ISBN 0-393-03602-2.

[FOOTNOTESpirerSpirerJaffe1998-14] Spirer, Spirer & Jaffe 1998.

[FOOTNOTEKahneman2013102-15] Kahneman 2013, p. 102.

[FOOTNOTEMooreNotz200659-16] Moore & Notz 2006, p. 59.

[FOOTNOTEMooreNotz200697-17] Moore & Notz 2006, p. 97.

[FOOTNOTEMooreMcCabe2003252–254-18] Moore & McCabe 2003, pp. 252–254.

[FOOTNOTEMooreNotz200653,_Sample_surveys_in_the_real_world-19] Moore & Notz 2006, p. 53, Sample surveys in the real world.

[FOOTNOTEFreedmanPisaniPurves1998chapter_22:_Measuring_Employment_and_Unemployment,_p._405-20] Freedman, Pisani & Purves 1998, chapter 22: Measuring Employment and Unemployment, p. 405.

[FOOTNOTEFreedmanPisaniPurves1998389–390-21] Freedman, Pisani & Purves 1998, pp. 389–390.

[Farley2003-23] Farley, John W. (2003). Barrett, Stephen (ed.). "Power Lines and Cancer: Nothing to Fear". Quackwatch.

[powerlines-24] Vince, Gaia (2005-06-03). "Large study links power lines to childhood cancer". New Scientist. Archived from the original on August 16, 2014.CS1 maint: unfit URL (link) Cites: Draper, G. (2005). "Childhood cancer in relation to distance from high voltage power lines in England and Wales: a case-control study". BMJ. 330 (7503): 1290. doi:10.1136/bmj.330.7503.1290. PMC 558197. PMID 15933351.

[FOOTNOTEMooreMcCabe2003463-25] Moore & McCabe 2003, pp. 463.

[Rozeboom1960-26] Rozeboom, William W. (1960). "The fallacy of the null-hypothesis significance test". Psychological Bulletin. 57 (5): 416–428. doi:10.1037/h0042040. PMID 13744252.

[FOOTNOTEMooreMcCabe2003466-27] Moore & McCabe 2003, p. 466.

[28] Neylon, C (2009). "Scientists lead the push for open data sharing". Research Information. Europa Science. 41: 22–23. ISSN 1744-8026. Archived from the original on December 3, 2013.CS1 maint: unfit URL (link)

[fpp3-29] Freedman, Pisani & Purves 1998, chapter 9: More about correlations, §3: Some exceptional cases

[30] Seife, Charles (2011). Proofiness: how you're being fooled by the numbers. New York: Penguin. pp. 203–205 and Appendix C. ISBN 9780143120070. Discusses the notorious British case.

[rss2-31] Royal Statistical Society (23 October 2001). " "Royal Statistical Society concerned by issues raised in Sally Clark case" (PDF). Archived from the original (PDF) on 2011-08-24. (28.0 KB)"

[32] Hill, R. (2004). "Multiple sudden infant deaths – coincidence or beyond coincidence?". Paediatric and Perinatal Epidemiology. 18 (5): 320–6. doi:10.1111/j.1365-3016.2004.00560.x. PMID 15367318.

[FOOTNOTEHuff1954chapter_2-33] Huff 1954, chapter 2.

[FOOTNOTEKahneman2013chapter_17-34] Kahneman 2013, chapter 17.

[FOOTNOTEHooke1983§50-35] Hooke 1983, §50.

[FOOTNOTECampbell1974[httpsbooksgooglecombooksidGtSV7rG6Iu4CpgPA25_chapter_3:_Meaningless_statistics]-36] Campbell 1974, chapter 3: Meaningless statistics.

[1]