Неправильное использование статистики

Эта статья может потребовать очистки, чтобы соответствовать стандартам качества Википедии . Конкретная проблема: эта статья плохо написана, часто непонятна. Помогите улучшить эту статью, если можете. ( Ноябрь 2014 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Статистические данные , когда они используются в заблуждение, могут обмануть случайного наблюдателя, чтобы он поверил чему-то другому, кроме того, что показывают данные . То есть неправильное использование статистики происходит, когда статистический аргумент утверждает ложь . В некоторых случаях неправильное использование может быть случайным. В других случаях это делается целенаправленно и ради выгоды преступника. Когда задействованная статистическая причина ложна или используется неправильно, это составляет статистическую ошибку .

Ловушка ложной статистики может нанести серьезный ущерб поиску знаний. Например, в медицине исправление фальши может занять десятилетия и стоить жизни.

Неправильное использование может быть легким. Профессиональных ученых, даже математиков и профессиональных статистиков, можно обмануть даже простыми методами, даже если они тщательно все проверяют. Известно, что ученые обманывают себя статистикой из-за незнания теории вероятностей и отсутствия стандартизации своих тестов .

Определение, ограничения и контекст [ править ]

Одно из применимых определений: «Злоупотребление статистикой: использование чисел таким образом, что - либо намеренно, либо из-за незнания или небрежности - выводы являются необоснованными или неверными». ^[1] «Числа» включают вводящую в заблуждение графику, обсуждаемую в другом месте. Этот термин не часто встречается в статистических текстах, и его авторитетное определение неизвестно. Это обобщение лжи со статистикой, которая была подробно описана статистиками 60 лет назад.

Определение сталкивается с некоторыми проблемами (некоторые рассматриваются источником): ^[2]

Статистика обычно производит вероятности; выводы являются предварительными
В предварительных выводах есть ошибки и процент ошибок. Обычно 5% предварительных выводов теста значимости неверны
Статистики не полностью согласны с идеальными методами.
Статистические методы основаны на допущениях, которые редко полностью выполняются.
Сбор данных обычно ограничивается этическими, практическими и финансовыми ограничениями.

Как Ли с статистикой признаетчто статистика может законно принимать различные формы. Независимо от цифр, можно спорить о том, является ли продукт «легким и экономичным» или «хрупким и дешевым». Некоторые возражают против подмены морального лидерства (например) статистической корректностью в качестве цели. Винить в злоупотреблениях часто сложно, потому что ученые, социологи, статистики и репортеры часто являются сотрудниками или консультантами.

Коварное злоупотребление (?) Статистикой завершается слушателем / наблюдателем / аудиторией / присяжным заседателем. Поставщик предоставляет «статистику» в виде чисел или графиков (или фотографий до / после), позволяя потребителю сделать (возможно, необоснованные или неверные) выводы. Плохое состояние государственной статистической грамотности и нестатистический характер человеческой интуиции позволяют вводить в заблуждение без явных ложных выводов. Это слабое определение ответственности потребителя статистики.

Историк перечислил более 100 заблуждений в десятке категорий, включая те, которые связаны с обобщением и причинно-следственной связью. ^[3] Некоторые из заблуждений являются явно или потенциально статистическими, включая выборку, статистическую бессмыслицу, статистическую вероятность, ложную экстраполяцию, ложную интерполяцию и коварное обобщение. Все технические / математические проблемы прикладной вероятности укладываются в единственное перечисленное заблуждение статистической вероятности. Многие из заблуждений могут быть связаны со статистическим анализом, что делает возможным ложное заключение, вытекающее из безупречного статистического анализа.

Пример использования статистики - анализ медицинских исследований. Этот процесс включает ^[4]^[5] экспериментальное планирование, проведение эксперимента, анализ данных, создание логических выводов и представление / отчет. Отчет подготовлен популярной прессой и рекламодателями. Неправильное использование статистики может быть результатом проблем на любом этапе процесса. Статистические стандарты, которые в идеале налагаются на научный отчет, сильно отличаются от тех, которые навязываются популярной прессе и рекламодателям; однако существуют случаи, когда реклама замаскирована под науку . Определение неправомерного использования статистики является слабым в отношении требуемой полноты статистической отчетности. Высказывается мнение, что газеты должны предоставлять хотя бы источник публикуемой статистики.

Простые причины [ править ]

Многие злоупотребления статистикой происходят из-за того, что

Источник - предметный эксперт, а не статистик. ^[6] Источник может неправильно использовать метод или интерпретировать результат.
Источник - статистик, а не предметный эксперт. ^[7] Эксперт должен знать, когда сравниваемые числа описывают разные вещи. Цифры меняются, в отличие от реальности, когда меняются юридические определения или политические границы.
Изучаемый предмет четко не определен. ^[8] Несмотря на то, что IQ-тесты доступны и числовые, трудно определить, что они измеряют; Интеллект - понятие неуловимое. Публикация "воздействия" имеет ту же проблему. ^[9] На первый взгляд простой вопрос о количестве слов в английском языке сразу же встречает вопросы об архаичных формах, учете префиксов и суффиксов, множественных определениях слова, вариантах написания, диалектах, причудливых творениях (например, эктопластике из эктоплазмы и статистике) , ^[10] технический словарь ...
Качество данных низкое. ^[11] Примером может служить одежда. Люди имеют широкий диапазон размеров и форм тела. Очевидно, что размеры одежды должны быть многомерными. Вместо этого он сложен в неожиданных отношениях. Некоторая одежда продается только по размеру (без явного учета формы тела), размеры зависят от страны и производителя, а некоторые размеры намеренно вводят в заблуждение. Хотя размеры являются числовыми, возможен только самый грубый статистический анализ с использованием чисел размера с осторожностью.
Популярная пресса имеет ограниченный опыт и неоднозначные мотивы. ^[12] Если факты не заслуживают освещения в печати (что может потребовать преувеличения), они не могут быть опубликованы. Мотивы рекламодателей еще более неоднозначны.
«Политики используют статистику так же, как пьяный использует фонарные столбы - для поддержки, а не для освещения» - Эндрю Лэнг (WikiQuote) «Чему мы учимся из этих двух способов взглянуть на одни и те же числа? Мы узнаем, что умный пропагандист , направо или налево, почти всегда может найти способ представить данные об экономическом росте, которые, кажется, подтверждают ее версию. И поэтому мы также учимся брать любой статистический анализ из сильно политизированного источника с горстью соли ". ^[13] Термин «статистика» происходит от цифр, генерируемых и используемых государством. Хорошее правительство может потребовать точных цифр, но популярное правительство может потребовать подтверждающих цифр (не обязательно одинаковых). «Использование и неправильное использование статистики правительствами - древнее искусство». ^[14]

Типы злоупотреблений [ править ]

Отказ от неблагоприятных наблюдений [ править ]

Все, что нужно сделать компании для продвижения нейтрального (бесполезного) продукта, - это найти или провести, например, 40 исследований с уровнем достоверности 95%. Если продукт действительно бесполезен, в среднем будет проведено одно исследование, показывающее, что продукт полезен, одно исследование, показывающее, что он вреден, и тридцать восемь безрезультатных исследований (38 - 95% из 40). Эта тактика становится тем более эффективной, чем больше доступно исследований. Организации, которые не публикуют все исследования, которые они проводят, такие как табачные компании, отрицающие связь между курением и раком, группы по защите интересов курения и средства массовой информации, пытающиеся доказать связь между курением и различными заболеваниями, или продавцы чудодейственных таблеток, скорее всего, используйте эту тактику.

Рональд Фишер рассматривал этот вопрос в своем знаменитом эксперименте с дегустацией чая (из его книги 1935 года « План экспериментов» ). Что касается повторных экспериментов, он сказал: «Это было бы явно незаконным и лишило бы наших расчетов его основы, если бы не все неудачные результаты были учтены».

Еще один термин, связанный с этим понятием, - сбор вишни .

Игнорирование важных функций [ править ]

Наборы данных с несколькими переменными имеют две или более функции / измерения . Если для анализа выбрано слишком мало этих функций (например, если выбрана только одна функция и выполняется простая линейная регрессия вместо множественной линейной регрессии ), результаты могут вводить в заблуждение. Это делает аналитика уязвимым для любого из различных статистических парадоксов или в некоторых (не во всех) случаях ложной причинности, как показано ниже.

Загруженные вопросы [ править ]

Ответами на опросы часто можно манипулировать, формулируя вопрос таким образом, чтобы респондент склонялся к определенному ответу. Например, при опросе в поддержку войны вопросы:

Поддерживаете ли вы попытку США принести свободу и демократию в другие места в мире?
Поддерживаете ли вы неспровоцированную военную акцию США?

вероятно, приведет к искажению данных в разные стороны, хотя они оба опрашивают поддержку войны. Лучше сформулировать вопрос: «Поддерживаете ли вы нынешние военные действия США за границей?» Еще более почти нейтральный способ задать этот вопрос: «Что вы думаете о текущих военных действиях США за рубежом?» Дело должно быть в том, что человек, которого спрашивают, не может догадаться по формулировке, что спрашивающий, возможно, хотел бы услышать.

Другой способ сделать это - поставить перед вопросом перед вопросом информацию, которая поддерживает «желаемый» ответ. Например, больше людей, скорее всего, ответят «да» на вопрос «Учитывая растущее налоговое бремя для семей среднего класса, поддерживаете ли вы снижение подоходного налога?» чем на вопрос «Учитывая растущий дефицит федерального бюджета и острую потребность в увеличении доходов, поддерживаете ли вы снижение подоходного налога?»

Правильная формулировка вопросов может быть очень тонкой. Ответы на два вопроса могут сильно отличаться в зависимости от порядка, в котором они задаются. ^[15] «Опрос, в котором задавался вопрос о« владении акциями », показал, что большинство техасских владельцев ранчо владеют акциями, хотя, вероятно, не такими, которые торгуются на Нью-Йоркской фондовой бирже». ^[16]

Чрезмерное обобщение [ править ]

Чрезмерное обобщение - это заблуждение, возникающее, когда утверждается, что статистические данные о конкретной популяции справедливы среди членов группы, для которой исходная популяция не является репрезентативной выборкой.

Например, предположим, что 100% яблок летом красные. Утверждение «Все яблоки красные» было бы примером чрезмерного обобщения, потому что исходная статистика была верна только для определенного подмножества яблок (летом), которое, как ожидается, не будет репрезентативным для популяции яблок в целом.

Реальный пример ошибки чрезмерного обобщения можно наблюдать как артефакт современных методов опроса, которые запрещают звонить на сотовые телефоны для политических опросов по телефону. Поскольку молодые люди чаще, чем другие демографические группы, не имеют обычного «стационарного» телефона, телефонный опрос, в ходе которого опрашивается исключительно респондентов на звонки на стационарные телефоны, может привести к тому, что результаты опроса не будут отражать мнения молодых людей, если не будут приняты другие меры. чтобы учесть этот перекос выборки. Таким образом, без чрезмерного обобщения опрос, изучающий предпочтения молодежи при голосовании с использованием этого метода, может не дать совершенно точного представления об истинных предпочтениях молодых людей при голосовании, поскольку использованная выборка исключает молодых людей, у которых есть только мобильные телефоны,которые могут иметь или не иметь предпочтения при голосовании, отличные от остального населения.

Чрезмерное обобщение часто происходит, когда информация передается через нетехнические источники, в частности через СМИ.

Предвзятые образцы [ править ]

Ученые ценой больших затрат осознали, что сбор хороших экспериментальных данных для статистического анализа затруднен. Пример: эффект плацебо (разум выше тела) очень силен. У 100% субъектов появилась сыпь при воздействии инертного вещества, которое ошибочно назвали ядовитым плющом, в то время как у немногих появилась сыпь на "безвредном" предмете, которым на самом деле был ядовитый плющ. ^[17] Исследователи борются с этим эффектом с помощью двойных слепых рандомизированных сравнительных экспериментов . Статистики обычно больше беспокоятся о достоверности данных, чем об анализе. Это отражено в области исследований в статистике, известной как план экспериментов .

Опросники ценой больших затрат узнали, что сбор хороших данных опросов для статистического анализа затруднен. Селективное влияние сотовых телефонов на сбор данных (обсуждается в разделе «Обобщение») является одним из возможных примеров; Если молодые люди с традиционными телефонами не являются репрезентативными, выборка может быть необъективной. Выборочные опросы имеют множество подводных камней и требуют большой осторожности при проведении. ^[18] Одно усилие потребовало почти 3000 телефонных звонков, чтобы получить 1000 ответов. Простая случайная выборка населения «непроста и не может быть случайной». ^[19]

Неверное сообщение или неправильное понимание предполагаемой ошибки [ править ]

Если исследовательская группа хочет знать, что думают 300 миллионов человек по определенной теме, было бы непрактично спрашивать их всех. Однако, если команда выберет случайную выборку из примерно 1000 человек, они могут быть достаточно уверены, что результаты, данные этой группой, репрезентативны для того, что бы сказала большая группа, если бы их всех спросили.

Эта уверенность может быть фактически определена количественно с помощью центральной предельной теоремы и других математических результатов. Уверенность выражается как вероятность того, что истинный результат (для большей группы) находится в пределах определенного диапазона оценки (цифра для меньшей группы). Это показатель «плюс-минус», который часто приводится в статистических обследованиях. Вероятностная часть уровня достоверности обычно не упоминается; в таком случае предполагается, что это стандартное число, например 95%.

Эти два числа связаны. Если обследование имеет оценочную ошибку ± 5% при доверительной вероятности 95%, она также имеет оценочную ошибку ± 6,6% при достоверности 99%. ± % при доверительной вероятности 95% всегда составляет ± % при достоверности 99% для нормально распределенной совокупности. ${\ displaystyle x}$ ${\ displaystyle 1.32x}$

Чем меньше оценочная ошибка, тем больше требуется выборка при заданном уровне достоверности.

при достоверности 95,4% :

± 1% потребует 10 000 человек.
± 2% потребуется 2500 человек.
± 3% потребуется 1111 человек.
± 4% потребуется 625 человек.
± 5% потребуется 400 человек.
± 10% потребуется 100 человек.
± 20% потребует 25 человек.
± 25% потребуется 16 человек.
± 50% потребуется 4 человека.

Люди могут предположить, поскольку показатель достоверности опущен, что существует 100% уверенность в том, что истинный результат находится в пределах оцененной ошибки. Это неверно с математической точки зрения.

Многие люди могут не осознавать, что случайность выборки очень важна. На практике многие опросы общественного мнения проводятся по телефону, что искажает выборку несколькими способами, включая исключение людей, у которых нет телефонов, поддержку включения людей, у которых есть более одного телефона, и включение людей, которые готовы участвовать в телефонном опросе тех, кто отказывается, и т. д. Неслучайная выборка делает оценку ошибки ненадежной.

С другой стороны, люди могут считать статистику ненадежной по своей природе, потому что не все звонят или потому что их самих никогда не опрашивают. Люди могут подумать, что невозможно получить данные о мнении десятков миллионов людей, просто опросив несколько тысяч. Это тоже неточно. ^[a] Опрос с идеальной беспристрастной выборкой и правдивыми ответами имеет математически определенную погрешность , которая зависит только от количества опрошенных людей.

Однако часто в опросе указывается только одна погрешность. Когда результаты сообщаются для подгрупп населения, будет применяться большая погрешность, но это может быть неясно. Например, опрос 1000 человек может включать 100 человек из определенной этнической или экономической группы. Результаты, ориентированные на эту группу, будут гораздо менее надежными, чем результаты для всего населения. Если допустимая погрешность для полной выборки составляла, скажем, 4%, то погрешность для такой подгруппы могла бы составлять около 13%.

Есть также много других проблем измерения при обследованиях населения.

Упомянутые выше проблемы относятся ко всем статистическим экспериментам, а не только к опросам населения.

Ложная причинность [ править ]

Когда статистический тест показывает корреляцию между A и B, обычно существует шесть возможностей:

А вызывает Б.
B вызывает A.
A и B оба частично вызывают друг друга.
И A, и B вызваны третьим фактором C.
B вызван C, который коррелирует с A.
Наблюдаемая корреляция была чисто случайной.

Шестую возможность можно количественно оценить с помощью статистических тестов, которые могут вычислить вероятность того, что наблюдаемая корреляция будет такой же большой, как и случайность, если на самом деле нет взаимосвязи между переменными. Однако, даже если эта возможность имеет небольшую вероятность, есть еще пять других.

Если количество людей, покупающих мороженое на пляже, статистически связано с количеством людей, которые тонут на пляже, тогда никто не станет утверждать, что мороженое вызывает утопление, потому что очевидно, что это не так. (В этом случае и утопление, и покупка мороженого явно связаны третьим фактором: количеством людей на пляже).

Это заблуждение можно использовать, например, для доказательства того, что воздействие химического вещества вызывает рак. Замените «количество людей, покупающих мороженое» на «количество людей, подвергшихся воздействию химического вещества X», а «количество утонувших» на «количество людей, заболевших раком», и многие люди вам поверят. В такой ситуации может существовать статистическая корреляция, даже если нет реального эффекта. Например, если есть мнение, что химический объект «опасен» (даже если это действительно не так), стоимость собственности в этом районе будет уменьшаться, что побудит больше малообеспеченных семей переехать в этот район. Если в семьях с низким доходом больше шансов заболеть раком, чем в семьях с высоким доходом (например, из-за плохого питания или ограниченного доступа к медицинскому обслуживанию), то уровень заболеваемости раком возрастет.хотя сам по себе химикат не опасен. Считается^[22], что именно это и произошло с некоторыми из ранних исследований, показывающих связь между ЭМП ( электромагнитными полями ) от линий электропередач и раком .^[23]

В хорошо спланированных исследованиях эффект ложной причинности может быть устранен путем случайного отнесения некоторых людей к «экспериментальной группе», а некоторых - к «контрольной группе», а также предоставления лечебной группе лечения и отказа от контрольной группы. лечение. В приведенном выше примере исследователь может подвергнуть одну группу людей воздействию химического вещества X и оставить вторую группу незащищенными. Если первая группа имела более высокий уровень заболеваемости раком, исследователь знает, что не существует третьего фактора, влияющего на то, подвергался ли человек воздействию, потому что он контролировал, кто подвергался воздействию или нет, и он произвольно распределил людей в группы, подвергшиеся и не подвергавшиеся воздействию. Однако во многих приложениях на самом деле проведение эксперимента таким образом либо чрезмерно дорого, либо невозможно, неэтично, незаконно или совершенно невозможно. Например,очень маловероятно, чтоIRB согласится с экспериментом, в ходе которого люди намеренно подвергаются воздействию опасного вещества, чтобы проверить его токсичность. Очевидные этические последствия таких экспериментов ограничивают возможности исследователей эмпирически проверить причинно-следственную связь.

Доказательство нулевой гипотезы [ править ]

В статистическом тесте нулевая гипотеза ( ) считается действительной, пока достаточное количество данных не подтвердит ее ошибочность. Затем отклоняется, и альтернативная гипотеза ( ) считается доказанной как правильная. Случайно это может произойти, хотя и верно, с обозначенной вероятностью (уровнем значимости). Это можно сравнить с судебным процессом, в котором обвиняемый считается невиновным ( ) до тех пор, пока его вина не будет доказана ( ) вне разумных сомнений ( ). ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {A}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle \ alpha}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {A}}$ ${\ displaystyle \ alpha}$

Но если данные не дают нам достаточных доказательств, чтобы отвергнуть это , это не доказывает автоматически, что это правильно. Если, например, производитель табака желает продемонстрировать безопасность своей продукции, он может легко провести тест с небольшой выборкой курильщиков по сравнению с небольшой выборкой некурящих. Маловероятно, что у кого-то из них разовьется рак легких (и даже если они это сделают, разница между группами должна быть очень большой, чтобы от них отказаться ). Следовательно, вероятно, даже если курение опасно, наш тест не отвергнет . Если это принято, это автоматически не означает, что курение безвредно. У теста недостаточно мощности для отклонения , поэтому тест бесполезен, и значение «доказательства» также равно нулю. ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$ ${\ displaystyle H_ {0}}$

Это можно - используя приведенный выше судебный аналог - сравнить с действительно виновным обвиняемым, освобожденным только потому, что доказательств недостаточно для вынесения обвинительного приговора. Это не доказывает невиновность подсудимого, а только то, что доказательств недостаточно для вынесения обвинительного приговора.

«... нулевая гипотеза никогда не доказывается и не устанавливается, но она, возможно, опровергается в ходе экспериментов. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу». (Фишер в « Планировании экспериментов» ) Существует множество причин для путаницы, включая использование двойной отрицательной логики и терминологии в результате слияния «проверки значимости» Фишера (где нулевая гипотеза никогда не принимается) с «проверкой гипотез» (где некоторая гипотеза всегда принимается).

Путать статистическую значимость с практической значимостью [ править ]

Статистическая значимость - это мера вероятности; практическое значение - мера эффекта. ^[24] Лекарство от облысения является статистически значимым, если редкий персиковый пушок обычно покрывает ранее обнаженную кожу головы. Вылечить можно практически, когда шляпа больше не требуется в холодную погоду и парикмахер спрашивает, сколько ее снять. Лысые хотят лечения, которое является как статистически, так и практически значимым; Это, вероятно, сработает, и если это так, это будет иметь большой эффект волосатости. Для научных публикаций часто требуется только статистическая значимость. Это привело к жалобам (за последние 50 лет), что тестирование статистической значимости является неправильным использованием статистики. ^[25]

Дноуглубительные работы [ править ]

Извлечение данных - это злоупотребление интеллектуальным анализом данных . При выемке данных большие совокупности данных исследуются, чтобы найти корреляцию, без какого-либо заранее определенного выбора гипотезы для проверки. Поскольку требуемый доверительный интервалдля установления взаимосвязи между двумя параметрами обычно выбирается 95% (это означает, что существует 95% -ная вероятность того, что наблюдаемая взаимосвязь не является случайной), таким образом, существует 5% -ная вероятность обнаружения корреляции между любыми двумя наборами. полностью случайных величин. Учитывая, что при углублении данных обычно исследуются большие наборы данных со многими переменными и, следовательно, даже с большим количеством пар переменных, при любом таком исследовании почти наверняка будут получены ложные, но очевидно статистически значимые результаты.

Обратите внимание, что дноуглубительные работы - это действенный способ найти возможную гипотезу, но эта гипотеза должна быть затем проверена с данными, которые не использовались в первоначальной дноуглубительной работе. Неправильное использование происходит тогда, когда эта гипотеза констатируется как факт без дальнейшего подтверждения.

«Вы не можете законно проверить гипотезу на тех же данных, которые впервые предложили эту гипотезу. Решение очевидное. Как только у вас появится гипотеза, спланируйте исследование для поиска именно того эффекта, который, по вашему мнению, имеет место. статистически значимо, у вас наконец-то есть реальные доказательства ". ^[26]

Обработка данных [ править ]

Эта практика, неофициально называемая «фальсификацией данных», включает выборочную отчетность (см. Также предвзятость публикации ) и даже просто сбор ложных данных.

Примеров выборочной отчетности предостаточно. Самые простые и наиболее распространенные примеры включают выбор группы результатов, которые следуют шаблону, соответствующему предпочтительной гипотезе, при игнорировании других результатов или «прогонов данных», которые противоречат гипотезе.

Психологи давно оспаривают исследования, демонстрирующие людей со способностями экстрасенсорного восприятия. Критики обвиняют сторонников ESP в том, что они публикуют только эксперименты с положительными результатами и откладывают в долгий ящик те, которые показывают отрицательные результаты. «Положительный результат» - это тестовый прогон (или прогон данных), в котором испытуемый угадывает скрытую карту и т. Д. С гораздо большей частотой, чем случайный случай . ^{[ необходима цитата ]}

Ученые, как правило, сомневаются в достоверности результатов исследования, которые не могут быть воспроизведены другими исследователями. Однако некоторые ученые отказываются публиковать свои данные и методы. ^[27]

Манипуляция данными - серьезная проблема / серьезная проблема для самого честного статистического анализа. Выбросы, недостающие данные и отклонения от нормы могут отрицательно повлиять на достоверность статистического анализа. Перед началом анализа целесообразно изучить данные и устранить реальные проблемы. «[В] любой диаграмме рассеяния будут некоторые точки, более или менее отделенные от основной части облака: эти точки должны быть отклонены только по причине». ^[28]

Другие заблуждения [ править ]

Псевдорепликация - это техническая ошибка, связанная с дисперсионным анализом . Сложность скрывает тот факт, что статистический анализ проводится на единственной выборке (N = 1). Для этого вырожденного случая невозможно вычислить дисперсию (деление на ноль). Значение (N = 1) всегда дает исследователю наивысшую статистическую корреляцию между намеренной систематической ошибкой и фактическими результатами.

В ошибка игрока предполагает , что событие , для которого будущее вероятность может быть измерена была такая же вероятность происходит , как только это уже произошло. Таким образом, если кто-то уже подбросил 9 монет, и каждая из них выпала орлом, люди склонны предполагать, что вероятность того, что десятый бросок также будет орлом, составляет 1023 к 1 против (что было до того, как была подброшена первая монета), хотя на самом деле шанс выпадения десятой головы составляет 50% (при условии, что монета беспристрастна).

В заблуждение прокуратуры ^[29] привел, в Великобритании, чтобы Салли Кларк неправомерно осужден за убийство два своих сынов. В суде низкая статистическая вероятность (1 из 73 миллионов) двух детей женщины, умирающих от синдрома внезапной детской смерти, которую дал профессор сэр Рой Медоу, была неверно истолкована как свидетельствующая о низкой вероятности ее невиновности. Даже если предполагаемая вероятность двойного СВДС, которая позже была поставлена под сомнение Королевским статистическим обществом , ^[30]были правильными, нужно сопоставить все возможные объяснения друг с другом, чтобы сделать вывод, который, скорее всего, явился причиной необъяснимой смерти двух детей. Имеющиеся данные показывают, что вероятность двойного СВДС будет выше, чем двойного убийства, в девять раз ^[31] ». Обвинительный приговор Салли Кларк был в конечном итоге отменен.

Игровое заблуждение . Вероятности основаны на простых моделях, которые игнорируют реальные (если и отдаленные) возможности. Игроки в покер не считают, что противник может вытащить пистолет, а не карту. Страхователи (и правительства) предполагают, что страховщики останутся платежеспособными, но видят AIG и системные риски .

Другие виды неправомерного использования [ править ]

Другие включают злоупотребления сравнений яблок и апельсины , используя неправильное среднем, ^[32] регрессии , ^[33] и зонтик фразу мусора в, мусоре . ^[34] Некоторые статистические данные просто не имеют отношения к проблеме. ^[35]

Квартет Анскомба - это вымышленный набор данных, который иллюстрирует недостатки простой описательной статистики (и ценность построения данных перед численным анализом).

См. Также [ править ]

Обман
Этика в математике
Метанаука
Неправильное использование p-значений
Вводящий в заблуждение график
Постфактум анализ
Парадокс Симпсона
Statcheck

Ссылки [ править ]

Заметки [ править ]

^ Имеются некоторые данные о точности опросов. Что касается одного важного опроса правительства США: «Условно говоря, и ошибка выборки, и ошибка [систематической ошибки], не связанной с выборкой, очень малы». ^[20] Разница между голосами, предсказанными одним частным опросом, и фактическим подсчетом голосов на президентских выборах в США доступна для сравнения в разделе «Президентские предпочтения в год выборов: данные опроса Гэллапа: 1936–2012» . Прогнозы обычно рассчитывались на основе менее чем 5000 мнений вероятных избирателей. ^[21]

Источники [ править ]

^ Spirer, Spirer & Jaffe 1998 , стр. 1.
^ Гарденер, Джон; Резник, Дэвид (2002). «Злоупотребление статистикой: концепции, инструменты и повестка дня исследований». Подотчетность в исследованиях: политика и обеспечение качества . 9 (2): 65–74. DOI : 10.1080 / 08989620212968 . PMID 12625352 . S2CID 24167609 .
^ Фишер, Дэвид (1979). Заблуждения историков: к логике исторической мысли . Нью-Йорк: Харпер и Роу. С. 337–338. ISBN 978-0060904982.
^ Страсак, Александр М .; Камруз Заман; Карл П. Пфайффер; Георг Гёбель; Ханно Ульмер (2007). «Статистические ошибки в медицинских исследованиях - обзор распространенных ошибок». Швейцарский медицинский еженедельник . 137 (3–4): 44–49. PMID 17299669 . В этой статье все, что не соответствует лучшей статистической практике, приравнивается к потенциальному злоупотреблению статистикой. На нескольких страницах обсуждается 47 потенциальных статистических ошибок; ошибки в дизайне исследования, анализе данных, документации, представлении и интерпретации. «[S] татистов следует вовлекать в разработку дизайна исследования на раннем этапе, поскольку ошибки на этом этапе могут иметь серьезные последствия, отрицательно влияя на все последующие этапы медицинского исследования».
^ Indrayan, Abhaya (2007). «Статистические ошибки в ортопедических исследованиях» . Индийский журнал ортопедии . 41 (1): 37–46. DOI : 10.4103 / 0019-5413.30524 . PMC 2981893 . PMID 21124681 . Содержит богатый список медицинских злоупотреблений статистикой всех типов.
^ Spirer, Spirer & Jaffe 1998 , главы 7 и 8.
^ Spirer, Spirer & Jaffe 1998 , глава 3.
^ Spirer, Spirer & Jaffe 1998 , глава 4.
^ Адлер, Роберт; Джон Юинг; Питер Тейлор (2009). «Статистика цитирования» . Статистическая наука . 24 (1): 1–14. DOI : 10.1214 / 09-STS285 . Научные статьи и журналы часто оцениваются по «влиянию» - количеству цитирований в более поздних публикациях. Математики и статистики приходят к выводу, что воздействие (хотя и относительно объективное) не является очень значимой мерой. «Опора исключительно на данные цитирования обеспечивает в лучшем случае неполное и часто поверхностное понимание исследования - понимание, которое действительно только тогда, когда оно подкреплено другими суждениями. Цифры по своей сути не превосходят здравые суждения».
^ Spirer, Spirer & Jaffe 1998 , название главы.
^ Spirer, Spirer & Jaffe 1998 , глава 5.
^ Уэзерберн, Дон (ноябрь 2011 г.), «Использование и злоупотребление статистикой преступности» (PDF) , Бюллетень по преступности и правосудию: Современные проблемы преступности и правосудия , Бюро статистики и исследований преступности штата Новый Южный Уэльс, 153 , ISBN 9781921824357, ISSN 1030-1046 , архивировано 21 июня 2014 г.CS1 maint: неподходящий URL ( ссылка ) В этом австралийском отчете о статистике преступности приводятся многочисленные примеры интерпретации и неверной интерпретации данных. «Расширение доступа СМИ к информации о преступности не сопровождалось повышением качества освещения преступлений в СМИ. Неправильное использование статистических данных о преступности в СМИ препятствует рациональным дебатам о правопорядке». Среди предполагаемых злоупотреблений СМИ: выборочное использование данных, выборочное сообщение фактов, вводящие в заблуждение комментарии, искажение фактов и вводящие в заблуждение заголовки. Милиция и политики также злоупотребляли статистикой.
^ Кругман, Пол (1994). Торговля процветанием: экономический смысл и чепуха в эпоху заниженных ожиданий . Нью-Йорк: У.В. Нортон. п. 111 . ISBN 0-393-03602-2.
^ Spirer, Spirer & Jaffe 1998 .
Перейти ↑ Kahneman 2013 , p. 102.
^ Moore & Notz 2006 , стр. 59.
^ Moore & Notz 2006 , стр. 97.
Перейти ↑ Moore & McCabe 2003 , pp. 252–254.
^ Moore & Notz 2006 , стр. 53. Выборочные опросы в реальном мире.
↑ Freedman, Pisani & Purves 1998 , глава 22: Измерение занятости и безработицы, стр. 405.
Перейти ↑ Freedman, Pisani & Purves 1998 , pp. 389–390.
^ Фарли, Джон У. (2003). Барретт, Стивен (ред.). «Линии электропередач и рак: нечего бояться» . Quackwatch.
^ Винс, Гайя (2005-06-03). «Большое исследование связывает линии электропередач с детским раком» . Новый ученый . Архивировано 16 августа 2014 года.CS1 maint: неподходящий URL ( ссылка )Цитируется: Draper, G. (2005). «Детский рак в зависимости от расстояния от высоковольтных линий электропередач в Англии и Уэльсе: исследование случай-контроль» . BMJ . 330 (7503): 1290. DOI : 10.1136 / bmj.330.7503.1290 . PMC 558197 . PMID 15933351 .
Перейти ↑ Moore & McCabe 2003 , pp. 463.
^ Rozeboom, William W. (1960). «Ошибка проверки значимости нулевой гипотезы». Психологический бюллетень . 57 (5): 416–428. DOI : 10.1037 / h0042040 . PMID 13744252 .
Перейти ↑ Moore & McCabe 2003 , p. 466.
^ Neylon, C (2009). «Ученые ведут толчок к открытому обмену данными» . Информация об исследованиях . Европа Наука. 41 : 22–23. ISSN 1744-8026 . Архивировано 3 декабря 2013 года. CS1 maint: неподходящий URL ( ссылка )
↑ Freedman, Pisani & Purves 1998 , глава 9: Подробнее о корреляциях, §3: Некоторые исключительные случаи
^ Сейф, Чарльз (2011). Доказательство: как вас обманывают числа . Нью-Йорк: Пингвин. стр. 203–205 и Приложение C. ISBN 9780143120070. Обсуждает пресловутый британский случай.
↑ Королевское статистическое общество (23 октября 2001 г.). « Королевское статистическое общество обеспокоено проблемами, поднятыми в деле Салли Кларк» (PDF) . Архивировано из оригинала (PDF) 24 августа 2011 года. (28,0 КБ) "
^ Хилл, Р. (2004). «Множественные внезапные смерти младенцев - совпадение или несостоятельность?». Детская и перинатальная эпидемиология . 18 (5): 320–6. DOI : 10.1111 / j.1365-3016.2004.00560.x . PMID 15367318 .
Перейти ↑ Huff 1954 , глава 2.
Перейти ↑ Kahneman 2013 , глава 17.
^ Гук 1983 , § 50..
^ Кэмпбелл 1974 , глава 3: бессмысленная статистика .

Дальнейшее чтение [ править ]

Викискладе есть медиафайлы по теме злоупотребления статистикой .

В Викицитатнике есть цитаты, связанные с: Неправильное использование статистики

Кэмпбелл, Стивен (1974). Недостатки и заблуждения статистического мышления . Прентис Холл. ISBN 0-486-43598-9.
Christensen, R .; Райхерт, Т. (1976). «Нарушения единичной меры при распознавании образов, неоднозначность и несоответствие». Распознавание образов . 8 (4): 239–245. DOI : 10.1016 / 0031-3203 (76) 90044-3 .
Эрджан И., Язычи Б., Ян Й., Озкая Г., Цангур С., Эдиз Б., Кан И. (2007). «Злоупотребление статистикой в медицинских исследованиях» (PDF) . Европейский журнал общей медицины . 4 (3): 127–133. DOI : 10.29333 / ejgm / 82507 . Архивировано 13 ноября 2014 года.CS1 maint: uses authors parameter (link) CS1 maint: unfit URL (link)
Эрджан И., Язычи Б., Окакоглу Г., Сигирли Д., Кан И. (2007). «Обзор надежности и факторов, влияющих на надежность» (PDF) . InterStat . Архивировано 28 августа 2013 года.CS1 maint: uses authors parameter (link) CS1 maint: unfit URL (link)
Фридман, Дэвид; Пизани, Роберт; Purves, Роджер (1998). Статистика (3-е изд.). WW Нортон. ISBN 978-0-393-97083-8.
Гук, Роберт (1983). Как отличить лжецов от статистиков . Нью-Йорк: М. Деккер. ISBN 0-8247-1817-8.
Хафф, Даррелл (1954). Как лгать со статистикой . WW Norton & Company. LCCN 53013322 . ПР 6138576М .
Канеман, Даниэль (2013). Думаю, быстро и медленно . Нью-Йорк: Фаррар, Штраус и Жиру. ISBN 9780374533557.
Мур, Дэвид; Маккейб, Джордж П. (2003). Введение в практику статистики (4-е изд.). Нью-Йорк: ISBN WH Freeman and Co. 0716796570.
Мур, Дэвид; Notz, Уильям I. (2006). Статистика: концепции и противоречия (6-е изд.). Нью-Йорк: WH Freeman. ISBN 9780716786368.
Спирер, Герберт; Спайрер, Луиза; Джаффе, AJ (1998). Неправильно используемая статистика (исправленное и дополненное 2-е изд.). Нью-Йорк: М. Деккер. ISBN 978-0824702113. Книга основана на нескольких сотнях примеров неправильного использования.
Олдберг, Т. и Р. Кристенсен (1995) «Ошибочная мера» в NDE для энергетической промышленности 1995 , Американское общество инженеров-механиков. ISBN 0-7918-1298-7 (страницы 1–6) Переиздано в Интернете на ndt.net
Олдберг, Т. (2005) «Этическая проблема в статистике надежности тестов на обнаружение дефектов», Речь перед главой «Золотые ворота» Американского общества неразрушающего контроля . Опубликовано в сети ndt.net
Стоун, М. (2009) Неспособность понять: дорогостоящее пренебрежение Уайтхоллом к статистическим рассуждениям , Civitas, Лондон. ISBN 1-906837-07-4
Galbraith, J .; Стоун, М. (2011). «Злоупотребление регрессией в формулах распределения Национальной службы здравоохранения: ответ на« исследовательский документ о распределении ресурсов »Министерства здравоохранения за 2007 год ». Журнал Королевского статистического общества, Series A . 174 (3): 517–528. DOI : 10.1111 / j.1467-985X.2010.00700.x .

[22] ^ Имеются некоторые данные о точности опросов. Что касается одного важного опроса правительства США: «Условно говоря, и ошибка выборки, и ошибка [систематической ошибки], не связанной с выборкой, очень малы». ^[20] Разница между голосами, предсказанными одним частным опросом, и фактическим подсчетом голосов на президентских выборах в США доступна для сравнения в разделе «Президентские предпочтения в год выборов: данные опроса Гэллапа: 1936–2012» . Прогнозы обычно рассчитывались на основе менее чем 5000 мнений вероятных избирателей. ^[21]

[FOOTNOTESpirerSpirerJaffe19981-1] Spirer, Spirer & Jaffe 1998 , стр. 1.

[2] Гарденер, Джон; Резник, Дэвид (2002). «Злоупотребление статистикой: концепции, инструменты и повестка дня исследований». Подотчетность в исследованиях: политика и обеспечение качества . 9 (2): 65–74. DOI : 10.1080 / 08989620212968 . PMID 12625352 . S2CID 24167609 .

[3] Фишер, Дэвид (1979). Заблуждения историков: к логике исторической мысли . Нью-Йорк: Харпер и Роу. С. 337–338. ISBN 978-0060904982.

[4] Страсак, Александр М .; Камруз Заман; Карл П. Пфайффер; Георг Гёбель; Ханно Ульмер (2007). «Статистические ошибки в медицинских исследованиях - обзор распространенных ошибок». Швейцарский медицинский еженедельник . 137 (3–4): 44–49. PMID 17299669 . В этой статье все, что не соответствует лучшей статистической практике, приравнивается к потенциальному злоупотреблению статистикой. На нескольких страницах обсуждается 47 потенциальных статистических ошибок; ошибки в дизайне исследования, анализе данных, документации, представлении и интерпретации. «[S] татистов следует вовлекать в разработку дизайна исследования на раннем этапе, поскольку ошибки на этом этапе могут иметь серьезные последствия, отрицательно влияя на все последующие этапы медицинского исследования».

[Indrayan2007-5] Indrayan, Abhaya (2007). «Статистические ошибки в ортопедических исследованиях» . Индийский журнал ортопедии . 41 (1): 37–46. DOI : 10.4103 / 0019-5413.30524 . PMC 2981893 . PMID 21124681 . Содержит богатый список медицинских злоупотреблений статистикой всех типов.

[FOOTNOTESpirerSpirerJaffe1998chapters_7_&_8-6] Spirer, Spirer & Jaffe 1998 , главы 7 и 8.

[FOOTNOTESpirerSpirerJaffe1998chapter_3-7] Spirer, Spirer & Jaffe 1998 , глава 3.

[FOOTNOTESpirerSpirerJaffe1998chapter_4-8] Spirer, Spirer & Jaffe 1998 , глава 4.

[9] Адлер, Роберт; Джон Юинг; Питер Тейлор (2009). «Статистика цитирования» . Статистическая наука . 24 (1): 1–14. DOI : 10.1214 / 09-STS285 . Научные статьи и журналы часто оцениваются по «влиянию» - количеству цитирований в более поздних публикациях. Математики и статистики приходят к выводу, что воздействие (хотя и относительно объективное) не является очень значимой мерой. «Опора исключительно на данные цитирования обеспечивает в лучшем случае неполное и часто поверхностное понимание исследования - понимание, которое действительно только тогда, когда оно подкреплено другими суждениями. Цифры по своей сути не превосходят здравые суждения».

[FOOTNOTESpirerSpirerJaffe1998chapter_title-10] Spirer, Spirer & Jaffe 1998 , название главы.

[FOOTNOTESpirerSpirerJaffe1998chapter_5-11] Spirer, Spirer & Jaffe 1998 , глава 5.

[12] Уэзерберн, Дон (ноябрь 2011 г.), «Использование и злоупотребление статистикой преступности» (PDF) , Бюллетень по преступности и правосудию: Современные проблемы преступности и правосудия , Бюро статистики и исследований преступности штата Новый Южный Уэльс, 153 , ISBN 9781921824357, ISSN 1030-1046 , архивировано 21 июня 2014 г.CS1 maint: неподходящий URL ( ссылка ) В этом австралийском отчете о статистике преступности приводятся многочисленные примеры интерпретации и неверной интерпретации данных. «Расширение доступа СМИ к информации о преступности не сопровождалось повышением качества освещения преступлений в СМИ. Неправильное использование статистических данных о преступности в СМИ препятствует рациональным дебатам о правопорядке». Среди предполагаемых злоупотреблений СМИ: выборочное использование данных, выборочное сообщение фактов, вводящие в заблуждение комментарии, искажение фактов и вводящие в заблуждение заголовки. Милиция и политики также злоупотребляли статистикой.

[13] Кругман, Пол (1994). Торговля процветанием: экономический смысл и чепуха в эпоху заниженных ожиданий . Нью-Йорк: У.В. Нортон. п. 111 . ISBN 0-393-03602-2.

[FOOTNOTESpirerSpirerJaffe1998-14] Spirer, Spirer & Jaffe 1998 .

[FOOTNOTEKahneman2013102-15] Перейти ↑ Kahneman 2013 , p. 102.

[FOOTNOTEMooreNotz200659-16] Moore & Notz 2006 , стр. 59.

[FOOTNOTEMooreNotz200697-17] Moore & Notz 2006 , стр. 97.

[FOOTNOTEMooreMcCabe2003252–254-18] Перейти ↑ Moore & McCabe 2003 , pp. 252–254.

[FOOTNOTEMooreNotz200653,_Sample_surveys_in_the_real_world-19] Moore & Notz 2006 , стр. 53. Выборочные опросы в реальном мире.

[FOOTNOTEFreedmanPisaniPurves1998chapter_22:_Measuring_Employment_and_Unemployment,_p._405-20] Freedman, Pisani & Purves 1998 , глава 22: Измерение занятости и безработицы, стр. 405.

[FOOTNOTEFreedmanPisaniPurves1998389–390-21] Перейти ↑ Freedman, Pisani & Purves 1998 , pp. 389–390.

[Farley2003-23] Фарли, Джон У. (2003). Барретт, Стивен (ред.). «Линии электропередач и рак: нечего бояться» . Quackwatch.

[powerlines-24] Винс, Гайя (2005-06-03). «Большое исследование связывает линии электропередач с детским раком» . Новый ученый . Архивировано 16 августа 2014 года.CS1 maint: неподходящий URL ( ссылка )Цитируется: Draper, G. (2005). «Детский рак в зависимости от расстояния от высоковольтных линий электропередач в Англии и Уэльсе: исследование случай-контроль» . BMJ . 330 (7503): 1290. DOI : 10.1136 / bmj.330.7503.1290 . PMC 558197 . PMID 15933351 .

[FOOTNOTEMooreMcCabe2003463-25] Перейти ↑ Moore & McCabe 2003 , pp. 463.

[Rozeboom1960-26] Rozeboom, William W. (1960). «Ошибка проверки значимости нулевой гипотезы». Психологический бюллетень . 57 (5): 416–428. DOI : 10.1037 / h0042040 . PMID 13744252 .

[FOOTNOTEMooreMcCabe2003466-27] Перейти ↑ Moore & McCabe 2003 , p. 466.

[28] Neylon, C (2009). «Ученые ведут толчок к открытому обмену данными» . Информация об исследованиях . Европа Наука. 41 : 22–23. ISSN 1744-8026 . Архивировано 3 декабря 2013 года. CS1 maint: неподходящий URL ( ссылка )

[fpp3-29] Freedman, Pisani & Purves 1998 , глава 9: Подробнее о корреляциях, §3: Некоторые исключительные случаи

[30] Сейф, Чарльз (2011). Доказательство: как вас обманывают числа . Нью-Йорк: Пингвин. стр. 203–205 и Приложение C. ISBN 9780143120070. Обсуждает пресловутый британский случай.

[rss2-31] Королевское статистическое общество (23 октября 2001 г.). « Королевское статистическое общество обеспокоено проблемами, поднятыми в деле Салли Кларк» (PDF) . Архивировано из оригинала (PDF) 24 августа 2011 года. (28,0 КБ) "

[32] Хилл, Р. (2004). «Множественные внезапные смерти младенцев - совпадение или несостоятельность?». Детская и перинатальная эпидемиология . 18 (5): 320–6. DOI : 10.1111 / j.1365-3016.2004.00560.x . PMID 15367318 .

[FOOTNOTEHuff1954chapter_2-33] Перейти ↑ Huff 1954 , глава 2.

[FOOTNOTEKahneman2013chapter_17-34] Перейти ↑ Kahneman 2013 , глава 17.

[FOOTNOTEHooke1983§50-35] Гук 1983 , § 50..

[FOOTNOTECampbell1974[httpsbooksgooglecombooksidGtSV7rG6Iu4CpgPA25_chapter_3:_Meaningless_statistics]-36] Кэмпбелл 1974 , глава 3: бессмысленная статистика .

[1]