Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Экологическое заблуждение (также экологический вывод заблуждение [1] или заблуждение населения ) является формальной ошибкой в интерпретации статистических данных , которое происходит , когда выводы о природе индивидов выводятся из выводов о группе , к которой принадлежит этим лица. «Экологическая ошибка» - это термин, который иногда используется для описания ошибки разделения , которая не является статистической ошибкой. Четыре распространенных статистических экологических ошибки: путаница между экологическими корреляциями и индивидуальными корреляциями, смешение между средним групповым и общим средним, парадокс Симпсона.и путаница между более высоким средним и более высокой вероятностью.

Примеры [ править ]

Среднее и медиана [ править ]

Примером экологической ошибки является предположение о том, что среднее значение популяции имеет простую интерпретацию при рассмотрении вероятностей для отдельного человека.

Например, если средний балл группы больше нуля, это не означает, что случайный человек из этой группы с большей вероятностью получит положительный балл, чем отрицательный (при условии, что отрицательных баллов больше, чем положительных баллов). человек с большей вероятностью получит отрицательный результат). Точно так же, если определенная группа людей имеет более низкий средний IQ, чем общая популяция, будет ошибкой заключить, что случайно выбранный член группы, скорее всего, будет иметь более низкий IQ, чем средний IQ. населения в целом; также не обязательно, чтобы случайно выбранный член группы с большей вероятностью имел более низкий IQ, чем случайно выбранный член общей популяции. Математически,это происходит из-за того, что у распределения может быть положительное среднее, но отрицательная медиана. Это свойство связано сасимметрия распределения. [ необходима цитата ]

Рассмотрим следующий числовой пример:

  • Группа A: 80% людей получили 40 баллов и 20% из них получили 95 баллов. Средний балл - 51 балл.
  • Группа B: 50% людей получили 45 баллов и 50% получили 55 баллов. Средний балл - 50 баллов.
  • Если мы выберем двух случайных людей из A и B, есть 4 возможных исхода:
    • A - 40, B - 45 (B выигрывает, вероятность 40% - 0,8 × 0,5)
    • A - 40, B - 55 (B выигрывает, вероятность 40% - 0,8 × 0,5)
    • A - 95, B - 45 (A выигрывает, вероятность 10% - 0,2 × 0,5)
    • A - 95, B - 55 (A выигрывает, вероятность 10% - 0,2 × 0,5)
  • Хотя группа A имеет более высокий средний балл, в 80% случаев случайный человек из A будет иметь более низкий балл, чем случайный человек из B.

Индивидуальные и совокупные корреляции [ править ]

Исследования, проведенные еще при Эмиле Дюркгейме, показывают, что в преимущественно протестантских районах уровень самоубийств выше, чем в преимущественно католических. [2] Согласно Фридману [3] идея о том, что открытия Дюркгейма связывают на индивидуальном уровне религию человека с его или ее риском самоубийства, является примером экологической ошибки. Отношения на уровне группы не характеризуют автоматически отношения на уровне индивида.

Точно так же, даже если на индивидуальном уровне богатство положительно коррелирует со склонностью голосовать за республиканцев, мы наблюдаем, что более богатые государства склонны голосовать за демократов. Например, в 2004 году кандидат от республиканцев Джордж Буш победил в пятнадцати беднейших штатах, а кандидат от демократов Джон Керри выиграл 9 из 11 самых богатых штатов. Тем не менее, 62% избирателей с годовым доходом более 200 000 долларов проголосовали за Буша, но только 36% избирателей с годовым доходом в 15 000 долларов или меньше проголосовали за Буша. [4]Корреляция на совокупном уровне будет отличаться от корреляции на индивидуальном уровне, если на предпочтения при голосовании влияет общее богатство государства даже после контроля индивидуального богатства. Возможно, истинным движущим фактором предпочтения при голосовании является самооценка относительного богатства; возможно, те, кто считает себя более обеспеченными, чем их соседи, с большей вероятностью проголосуют за республиканцев. В этом случае человек с большей вероятностью проголосует за республиканца, если станет богаче, но он с большей вероятностью проголосует за демократа, если богатство ее соседа увеличится (что приведет к более богатому государству).

Однако наблюдаемая разница в привычках голосования, основанная на уровне благосостояния на уровне штата и на уровне отдельных лиц, также может быть объяснена общей путаницей между более высокими средними значениями и более высокой вероятностью, как обсуждалось выше. Государства могут быть богаче не потому, что в них больше богатых людей (т. Е. Больше людей с годовым доходом более 200 000 долларов), а потому, что они содержат небольшое количество сверхбогатых людей; экологическая ошибка возникает из-за неправильного предположения о том, что люди в более богатых государствах с большей вероятностью будут богатыми.

Многие примеры экологических заблуждений можно найти в исследованиях социальных сетей, которые часто сочетают анализ и выводы с разных уровней. Это было проиллюстрировано в научном документе о сетях фермеров Суматры. [5]

Парадокс Робинсона [ править ]

В статье 1950 года Уильяма С. Робинсона был вычислен уровень неграмотности и доля населения, родившегося за пределами США, для каждого штата и округа Колумбия по данным переписи 1930 года . [6]Он показал, что эти две цифры связаны с отрицательной корреляцией -0,53; Другими словами, чем больше доля иммигрантов в государстве, тем ниже его средний уровень неграмотности. Однако, если рассматривать индивидов, корреляция составила +0,12 (иммигранты в среднем были более неграмотными, чем коренные жители). Робинсон показал, что отрицательная корреляция на уровне населения штата объяснялась тем, что иммигранты имели тенденцию селиться в штатах, где коренное население было более грамотным. Он предостерег от вывода о людях на основании популяционных или «экологических» данных. В 2011 году было обнаружено, что расчеты Робинсона экологических корреляций основаны на неверных данных на уровне штата. Корреляция -0,53, упомянутая выше, на самом деле равна -0,46. [7]Работа Робинсона была плодотворной, но термин «экологическая ошибка» не был введен Селвином до 1958 года. [8]

Формальная проблема [ править ]

Корреляция совокупных величин (или экологическая корреляция ) не равна корреляции отдельных величин. Обозначим X iY i две величины на индивидуальном уровне. Формула ковариации агрегированных величин в группах размером N :

Ковариация двух агрегированных переменных зависит не только от ковариации двух переменных внутри одних и тех же людей, но также от ковариаций переменных между разными людьми. Другими словами, корреляция агрегированных переменных учитывает перекрестные эффекты, которые не актуальны на индивидуальном уровне.

Проблема корреляций, естественно, влечет за собой проблему для регрессий по совокупным переменным: поэтому ошибка корреляции является важной проблемой для исследователя, который хочет измерить причинные воздействия. Начните с регрессионной модели, в которой на результат влияют

Модель регрессии на агрегированном уровне получается путем суммирования отдельных уравнений:

Ничто не препятствует корреляции регрессоров и ошибок на агрегированном уровне. Поэтому, как правило, выполнение регрессии агрегированных данных не дает оценки той же модели, что и выполнение регрессии с отдельными данными.

Агрегированная модель верна тогда и только тогда, когда

Это означает , что управляющие для , не определяет .

Выбор между совокупным и индивидуальным выводом [ править ]

Нет ничего плохого в том, чтобы выполнять регрессию агрегированных данных, если кто-то интересуется агрегированной моделью. Например, для губернатора штата будет правильным провести регрессию между полицейскими силами по уровню преступности на уровне штата, если кто-то интересуется политическими последствиями увеличения численности полиции. Однако экологическая ошибка может произойти, если городской совет выведет влияние увеличения полицейских сил на уровень преступности на городском уровне из корреляции на уровне штата.

Выбор использования агрегированной или индивидуальной регрессии для понимания совокупного воздействия на некоторую политику зависит от следующего компромисса: агрегированные регрессии теряют данные индивидуального уровня, но индивидуальные регрессии добавляют сильные допущения моделирования. Некоторые исследователи предполагают, что экологическая корреляция дает лучшую картину результатов действий государственной политики, поэтому для этой цели они рекомендуют экологическую корреляцию, а не корреляцию на индивидуальном уровне (Lubinski & Humphreys, 1996). Другие исследователи не согласны, особенно когда отношения между уровнями четко не смоделированы. Чтобы предотвратить экологическую ошибку, исследователи, не располагающие индивидуальными данными, могут сначала смоделировать то, что происходит на индивидуальном уровне, а затем смоделировать, как связаны индивидуальный и групповой уровни.и, наконец, выясните, способствует ли что-либо происходящее на уровне группы пониманию отношений. Например, при оценке воздействия государственной политики полезно знать, что влияние политики меньше различается между штатами, чем сама политика, что позволяет предположить, что различия в политике не очень хорошо преобразуются в результаты, несмотря на высокую экологическую корреляцию (Rose, 1973). ).

Групповые и общие средние [ править ]

Экологическое заблуждение также может относиться к следующему заблуждению: среднее значение для группы приблизительно равно среднему значению для всего населения, разделенному на размер группы. Предположим, кто-то знает количество протестантов и уровень самоубийств в США, но не располагает данными, связывающими религию и самоубийства на индивидуальном уровне. Если кто-то интересуется уровнем самоубийств протестантов, было бы ошибкой оценивать его как общий уровень самоубийств, деленный на количество протестантов. Формально, обозначив среднее значение группы, мы обычно имеем:

Однако закон полной вероятности дает

Как мы знаем, это значение находится между 0 и 1, это уравнение дает оценку .

Парадокс Симпсона [ править ]

Поразительной экологической ошибкой является парадокс Симпсона : тот факт, что при сравнении двух популяций, разделенных на группы, среднее значение некоторой переменной в первой популяции может быть выше в каждой группе и все же ниже в общей популяции. Формально, когда каждое значение Z относится к разной группе, а X относится к некоторому лечению, может случиться так, что

Когда не зависит от , парадокс Симпсона - это в точности смещение пропущенной переменной для регрессии Y на X, где регрессор - фиктивная переменная, а пропущенная переменная - категориальная переменная, определяющая группы для каждого принимаемого значения. Приложение поразительно, потому что смещение достаточно велико, и параметры имеют противоположные знаки.

Юридические приложения [ править ]

Экологическая ошибка обсуждалась в суде, оспаривающем выборы губернатора в Вашингтоне в 2004 году, в ходе которых после выборов был выявлен ряд нелегальных избирателей; их голоса были неизвестны, потому что голосование было тайным . Претенденты утверждали, что незаконные голоса, поданные на выборах, соответствовали бы порядку голосования на участках, на которых они были поданы, и поэтому необходимо внести соответствующие корректировки. [9] Свидетель-эксперт сказал, что такой подход походил на попытку вычислить средний уровень Ичиро Судзуки , глядя на средний уровень всех Сиэтлских моряков.команды, поскольку незаконные голоса были поданы нерепрезентативной выборкой избирателей каждого участка и могли отличаться от среднего избирателя на участке, как Ичиро от остальной его команды. [10] Судья решил, что аргумент претендентов был экологической ошибкой, и отклонил его. [11]

См. Также [ править ]

  • Список заблуждений
  • Ошибка корреляции
  • Полная пространственная случайность
  • Экологическая регрессия
  • Модифицируемая проблема площадных единиц
  • Пространственная автокорреляция
  • Пространственная эпидемиология
  • Пространственная эконометрика
  • Статистическая дискриминация

Ссылки [ править ]

  1. ^ Чарльз Эсс; Фэй Судвикс (2001). Культура, технологии, общение: к межкультурной глобальной деревне . SUNY Нажмите. п. 90. ISBN 978-0-7914-5015-4. Проблема заключается в «экологической ошибке» (или ошибке разделения) - стремлении применить характеристики группового или социального уровня к отдельным лицам внутри этой группы.
  2. ^ Дюркгейм, (1951/1897). Самоубийство: исследование по социологии. Перевод Джона А. Сполдинга и Джорджа Симпсона. Нью-Йорк: Свободная пресса. ISBN 0-684-83632-7 . 
  3. Перейти ↑ Freedman, DA (1999). Экологический вывод и экологическая ошибка. Международная энциклопедия социальных и поведенческих наук , технический отчет № 549. https://web.stanford.edu/class/ed260/freedman549.pdf
  4. ^ Гельман, Андрей ; Парк, Дэвид; Шор, Борис; Бафуми, Джозеф; Кортина, Херонимо (2008). Красный штат, синий штат, богатый штат, бедный штат . Издательство Принстонского университета . ISBN 978-0-691-13927-2.
  5. ^ Матозный, Петр (2015). «Социальные сети и управление окружающей средой на нескольких уровнях: сохранение почвы на Суматре» . Экология и общество . 20 (3): 37. DOI : 10.5751 / ES-07816-200337 .
  6. ^ Робинсон, WS (1950). «Экологические корреляции и поведение людей». Американский социологический обзор . 15 (3): 351–357. DOI : 10.2307 / 2087176 . JSTOR 2087176 . 
  7. ^ Исследование этого любопытного сбоя в данных опубликовано в Te Grotenhuis, Manfred; Эйсинга, Роб; Субраманиан, С.В. (2011). « Экологические корреляции Робинсона и поведение индивидов : методологические исправления» . Int J Epidemiol . 40 (4): 1123–1125. DOI : 10.1093 / ije / dyr081 . PMID 21596762 . Данные, которые использовал Робинсон, и исправления доступны по адресу http://www.ru.nl/mt/rob/downloads/.
  8. ^ Selvin, Ханан C. (1958). « Самоубийство Дюркгейма и проблемы эмпирических исследований». Американский журнал социологии . 63 (6): 607–619. DOI : 10.1086 / 222356 . S2CID 143488519 . 
  9. Джордж Хоуленд-младший (18 мая 2005 г.). «Суд над обезьяной гаечным ключом: вызов Дино Росси на выборах 2004 года имеет шаткое юридическое основание. Но если он победит, наблюдайте, как судебные тяжбы станут вариантом в ближайших гонках во всем мире» . Сиэтл Еженедельник . Архивировано из оригинала на 1 декабря 2008 года . Проверено 17 декабря 2008 года .
  10. Кристофер Адольф (12 мая 2005 г.). «Отчет о выборах губернатора в Вашингтоне в 2004 году» . Отчет свидетеля-эксперта в Верховный суд округа Челан по делу Бордерс и др. Против округа Кинг и др.
  11. ^ Borders et al. против округа Кинг и др. Архивировано 18 октября 2008 г.в Wayback Machine , стенограмма решениясудьи Верховного суда округа Челан Джона Бриджеса, 6 июня 2005 г., опубликовано: 8 июня 2005 г.

Дальнейшее чтение [ править ]

  • Любинский, Д .; Хамфрис, LG (1996). «Вид на лес с деревьев: при прогнозировании поведения или статуса групп используйте средства корреляции». Психология, государственная политика и право . 2 (2): 363–376. DOI : 10.1037 / 1076-8971.2.2.363 . S2CID  45240767 .
  • Роза, DD (1973). «Национальные и местные силы в государственной политике: последствия многоуровневого анализа политики». Обзор американской политической науки . 67 (4): 1162–1173. DOI : 10.2307 / 1956538 . JSTOR  1956538 .