Из Википедии, бесплатной энциклопедии
  (Перенаправлен с регрессии на среднее значение )
Перейти к навигации Перейти к поиску
Экспериментальная установка Гальтона (рис.8)

В статистике , регрессия (или регрессию к среднему значению ) является явлением , которое возникает , если образец точка из случайной величины является крайней (почти на выбросе ), точка будущей будет ближе к среднему или среднему . [1] [2] [3] Чтобы избежать неправильных выводов , при планировании научных экспериментов и интерпретации данных необходимо учитывать регресс к среднему значению. [4] Исторически то, что сейчас называется регрессией к среднему значению, также называлось возвратом к среднему значению.и возврат к посредственности .

Условия, при которых происходит регрессия к среднему, зависят от математического определения термина. Британский эрудит сэр Фрэнсис Гальтон впервые наблюдал это явление в контексте простой линейной регрессии точек данных. Гальтон [5] разработал следующую модель: гранулы падают через квинконс, образуя нормальное распределение с центром непосредственно под точкой входа. Затем эти гранулы могут быть выпущены во вторую галерею, соответствующую второму измерению. Затем Гальтон задал обратный вопрос: «Откуда взялись эти гранулы?»

Ответ был не « в среднем прямо выше » . Скорее он был « в среднем, ближе к середине » по той простой причине, что над ним, ближе к середине, было больше гранул, которые могли блуждать влево, чем их было в левом крайнем положении, которые могли блуждать вправо, внутрь. [6]

Поскольку это менее ограничительный подход, регрессия к среднему значению может быть определена для любого двумерного распределения с идентичными маржинальными распределениями . Существует два таких определения. [7] Одно определение полностью согласуется с обычным использованием термина «регрессия к среднему». Не все такие двумерные распределения показывают регрессию к среднему значению в соответствии с этим определением. Однако все такие двумерные распределения показывают регресс к среднему значению при другом определении.

Джереми Сигел использует термин «возврат к среднему» для описания финансового временного ряда, в котором « доходность может быть очень нестабильной в краткосрочной перспективе, но очень стабильной в долгосрочной перспективе». С количественной точки зрения , это тот, в котором стандартное отклонение средней годовой доходности снижается быстрее, чем величина, обратная величине периода, обратного периоду владения, подразумевая, что процесс не является случайным блужданием , но что периоды более низкой доходности систематически сменяются компенсирующими периодами более высокой доходности. , как, например, во многих сезонных предприятиях. [8]

Концептуальный фон [ править ]

Рассмотрим простой пример: класс учащихся сдает тест «верно / неверно» из 100 пунктов по какому-либо предмету. Предположим, что все студенты выбирают случайным образом по всем вопросам. Тогда оценка каждого студента будет реализацией одной из набора независимых и одинаково распределенных случайных величин с ожидаемым средним значением.из 50. Естественно, случайно одни ученики получат значительно больше 50, а другие - значительно меньше 50. Если выбрать только 10% учащихся, набравших наибольшее количество баллов, и дать им второй тест, на котором они снова будут случайным образом выбирать все элементы, ожидается, что средний балл снова будет близок к 50. Таким образом, среднее значение этих учащихся будет «регрессировать». "вплоть до среднего значения всех студентов, сдавших исходный тест. Независимо от того, какой балл ученик набрал в исходном тесте, лучший прогноз для его результата во втором тесте - 50.

Если выбор ответов на вопросы теста не был случайным, т. Е. Если не было удачи (хорошей или плохой) или случайных предположений, связанных с ответами, предоставленными учащимися, то все учащиеся должны были бы получить такие же баллы во втором тесте, как и они набрал в исходном тесте, и регресса к среднему не будет.

Наиболее реалистичные ситуации находятся между этими двумя крайностями: например, можно рассматривать результаты экзаменов как комбинацию навыков и удачи . В этом случае подмножество студентов, набравших больше среднего, будет состоять из тех, кто был квалифицирован и не особо повезло, а также из неквалифицированных, но чрезвычайно удачливых. При повторном тестировании этого подмножества неквалифицированный вряд ли повторит свой счастливый случай, в то время как опытный получит второй шанс неудачника. Следовательно, те, кто хорошо справлялся ранее, вряд ли справятся так же хорошо во втором тесте, даже если оригинал не может быть воспроизведен.

Ниже приводится пример второго вида регрессии к среднему значению. Класс учащихся сдает два выпуска одного и того же теста в течение двух дней подряд. Часто наблюдается, что худшие исполнители в первый день будут иметь тенденцию улучшать свои оценки во второй день, а лучшие исполнители в первый день будут иметь худшие результаты во второй день. Этот феномен возникает из-за того, что оценки учащихся частично определяются базовыми способностями, а частично - случайностью. В первом тесте некоторым повезет и они наберут больше, чем их способности, а некоторым не повезет и они наберут меньше, чем их способности. Некоторым удачливым ученикам на первом тесте снова повезет и на втором, но большинство из них будут иметь (для них) средние или ниже среднего баллы. Следовательно,ученик, которому повезло и который превзошел свои способности в первом тесте, с большей вероятностью получит худший результат во втором тесте, чем лучший результат. Точно так же учащиеся, которые, к несчастью, набрали меньше, чем их способности в первом тесте, будут иметь тенденцию к увеличению своих оценок во втором тесте. Чем больше влияние удачи на создание экстремального события, тем меньше вероятность того, что удача повторится в нескольких событиях.

Другие примеры [ править ]

Если ваша любимая спортивная команда выиграла чемпионат в прошлом году, что это значит для их шансов на победу в следующем сезоне? В той степени, в которой этот результат обусловлен мастерством (команда в хорошем состоянии, у нее есть лучший тренер и т. Д.), Их победа сигнализирует о том, что более вероятно, что они снова выиграют в следующем году. Но чем в большей степени это связано с удачей (другие команды оказались втянутыми в скандал с наркотиками, удачная ничья, выбор драфта оказался продуктивным и т. Д.), Тем меньше вероятность того, что они снова выиграют в следующем году. [9]

Если одно медицинское исследование предполагает, что определенное лекарство или лечение превосходит все другие методы лечения заболевания, то во втором исследовании более вероятно, что эффективность этого препарата или лечения будет ближе к среднему значению в следующем квартале.

Если бизнес-организация имеет высокорентабельный квартал, несмотря на то, что основные причины ее результатов не изменились, в следующем квартале она, скорее всего, будет хуже. [10]

Бейсболисты, которые хорошо бьют в своем новичке, скорее всего, сделают хуже во втором сезоне; « Спад второкурсника ». Точно так же регресс к среднему является объяснением сглаза обложки Sports Illustrated - периоды исключительной производительности, которые приводят к функции обложки, вероятно, будут сменяться периодами более посредственной производительности, создавая впечатление, что появление на обложке вызывает снижение спортсмена. . [11]

История [ править ]

Концепция регрессии пришла из генетики и была популяризирована сэром Фрэнсисом Гальтоном в конце 19 века с публикацией книги « Регрессия к посредственности в наследственном росте» . [12] Гальтон заметил, что экстремальные характеристики (например, рост) у родителей не передаются полностью их потомству. Скорее, характеристики потомства регрессируют к средней точке (точке, которая с тех пор была идентифицирована как среднее значение). Измеряя рост сотен людей, он смог количественно оценить регрессию к среднему и оценить размер эффекта. Гальтон писал, что «средняя регрессия потомства является постоянной долей их соответствующихсредние родительские отклонения ". Это означает, что разница между ребенком и его родителями по некоторым характеристикам пропорциональна отклонению его родителей от типичных людей в популяции. Если каждый его родители на два дюйма выше, чем в среднем для мужчин и женщин, тогда, в среднем, потомок будет короче своих родителей на некоторый коэффициент (который сегодня мы бы назвали один минус коэффициент регрессии ), умноженный на два дюйма. Для роста, по оценке Гальтона, этот коэффициент составляет примерно 2/3: рост индивидуума будет измеряться примерно в средней точке, которая составляет две трети отклонения родителей от среднего населения.

Гальтон ввел термин «регрессия» для описания наблюдаемого факта наследования многофакторных количественных генетических признаков: а именно, что потомки родителей, которые находятся в хвосте распределения, будут иметь тенденцию лежать ближе к центру, среднему значению распространение. Он количественно оценил эту тенденцию и при этом изобрел линейный регрессионный анализ, тем самым заложив основу для большей части современного статистического моделирования. С тех пор термин «регрессия» приобрел множество значений, и современные статистики могут использовать его для описания феномена систематической ошибки выборки, которая имеет мало общего с первоначальными наблюдениями Гальтона в области генетики.

Хотя его математический анализ был верен, биологическое объяснение Гальтоном наблюдаемого им явления регрессии теперь, как известно, неверно. Он заявил: «Ребенок наследует частично от своих родителей, частично от своих предков. В целом, чем дальше уходит его генеалогия, тем многочисленнее и разнообразнее будет его родословная, пока они не перестанут отличаться от любой такой же многочисленной выборки, взятой наугад. от гонки в целом ". [12] Это неверно, поскольку ребенок получает свою генетическую основу исключительно от родителей. В генетическом материале нет пропуска поколений: любой генетический материал от более ранних предков должен был пройти через родителей (хотя он, возможно, не был выраженв них). Этот феномен будет лучше понят, если мы предположим, что наследственный признак (например, рост) контролируется большим количеством рецессивных генов . Исключительно высокие люди должны быть гомозиготными по мутациям увеличенного роста в значительной части этих локусов . Но локусы, несущие эти мутации, не обязательно являются общими для двух высоких особей, и если эти особи спариваются, их потомство будет в среднем гомозиготным по «высоким» мутациям по меньшему количеству локусов, чем любой из их родителей. Кроме того, рост не полностью генетически обусловлен, но также подвержен влиянию окружающей среды во время развития, что делает потомство исключительных родителей с большей вероятностью быть ближе к среднему, чем их родители.

Этот популяционно-генетический феномен регрессии к среднему лучше всего рассматривать как комбинацию биномиально распределенного процесса наследования и нормально распределенных влияний окружающей среды. Напротив, термин «регрессия к среднему» сейчас часто используется для описания явления, при котором может исчезнуть первоначальная систематическая ошибка выборки, поскольку новые, повторяющиеся или более крупные выборки отображают средние значения выборки, которые ближе к истинному среднему значению основной совокупности.

Важность [ править ]

Регрессия к среднему значению является важным фактором при планировании экспериментов .

Возьмем гипотетический пример 1000 человек примерно такого же возраста, которые были обследованы и оценены на предмет риска сердечного приступа. Статистические данные можно использовать для измерения успешности вмешательства среди 50 человек, относящихся к группе наибольшего риска. Вмешательство может заключаться в изменении диеты, физических упражнений или медикаментозном лечении. Даже если вмешательства бесполезны, можно ожидать, что тестовая группа продемонстрирует улучшение при следующем физическом осмотре из-за регресса к среднему значению. Лучший способ бороться с этим эффектом - случайным образом разделить группу на группу лечения, которая получает лечение, и контрольную группу, которая не получает. Тогда лечение будет считаться эффективным только в том случае, если в группе лечения улучшится больше, чем в контрольной группе.

В качестве альтернативы, группа детей из неблагополучных семей может быть протестирована, чтобы определить детей с наибольшим потенциалом колледжа. Можно было определить 1% лучших, и им были предоставлены специальные курсы повышения квалификации, репетиторство, консультации и компьютеры. Даже если программа эффективна, их средние баллы могут быть меньше, когда тест будет повторен через год. Однако в этих обстоятельствах может считаться неэтичным иметь контрольную группу детей из неблагополучных семей, чьи особые потребности игнорируются. Математический расчет усадки может учесть этот эффект, хотя он не будет таким надежным, как метод контрольной группы (см. Также пример Стейна ).

Эффект также можно использовать для общего вывода и оценки. Сегодня в самом жарком месте страны завтра скорее будет прохладнее, чем жарче, чем сегодня. Наиболее эффективный паевой инвестиционный фонд за последние три года, скорее всего, испытает относительное снижение производительности, чем улучшение в течение следующих трех лет. Самый успешный голливудский актер этого года, скорее всего, получит в своем следующем фильме меньше, чем больше. У бейсболиста с самым высоким средним показателем к перерыву на Матч звезд более вероятно, что он будет иметь более низкий средний показатель, чем более высокий средний показатель во второй половине сезона.

Недоразумения [ править ]

Концепцией регрессии к среднему можно очень легко злоупотребить.

В приведенном выше примере теста студента неявно предполагалось, что измеряемое значение не изменилось между двумя измерениями. Предположим, однако, что курс был пройден / не пройден, и студенты должны были набрать более 70 баллов по обоим тестам, чтобы пройти. Тогда студенты, набравшие меньше 70 баллов в первый раз, не будут иметь стимула преуспевать и могут получить в среднем хуже во второй раз. С другой стороны, у студентов чуть старше 70 будет сильный стимул учиться и концентрироваться во время прохождения теста. В этом случае можно было бы увидеть движение в сторону от 70, десятки под ним все ниже и оценки выше него становится все выше. Изменения между временами измерения могут увеличивать, смещать или обращать статистическую тенденцию к регрессу к среднему значению.

Статистическая регрессия к среднему не является причинойявление. Учащийся, набравший наихудшие баллы по тесту в первый день, не обязательно значительно повысит свой балл во второй день из-за эффекта. В среднем, худшие бомбардиры улучшаются, но это верно только потому, что худшие, скорее всего, были неудачниками, чем удачливыми. В той степени, в которой оценка определяется случайным образом или если оценка имеет случайные вариации или ошибки, в отличие от того, чтобы определяться академическими способностями учащегося или быть «истинной ценностью», явление будет иметь эффект. Классическая ошибка в этом плане была в образовании. Было замечено, что ученики, получившие похвалу за хорошую работу, показали более низкие результаты по следующему критерию, а студенты, которых наказали за плохую работу, показали, что они лучше справились со следующим критерием. Педагоги решили перестать хвалить и продолжать наказывать на этом основании.[13] Такое решение было ошибкой, потому что регресс к среднему значению основан не на причине и следствии, а скорее на случайной ошибке в естественном распределении вокруг среднего.

Хотя крайние индивидуальные измерения регрессируют к среднему, вторая выборка измерений будет не ближе к среднему, чем первая. Снова рассмотрим студентов. Предположим, что у экстремальных людей есть тенденция регрессировать на 10% к среднему значению 80, поэтому ожидается , что ученик, набравший 100 баллов в первый день,наберет 98 баллов во второй день, а ученик, набравший 70 баллов в первый день, должен набрать 71 балл во второй день. Эти ожидания ближе к среднему, чем результаты первого дня. Но результаты второго дня будут отличаться от их ожиданий; некоторые будут выше, а некоторые - ниже. Кроме того, люди, измеряющие очень близкие к среднему, должны ожидать отклонения от среднего. Эффект прямо противоположен регрессии к среднему и полностью компенсирует его. Таким образом, для экстремальных людей мы ожидаем, что вторая оценка будет ближе к среднему, чем первая оценка, но для всех людей мы ожидаем, что распределение расстояний от среднего будет одинаковым для обоих наборов измерений.

В связи с вышеизложенным, регрессия к среднему одинаково хорошо работает в обоих направлениях. Мы ожидаем, что ученик, набравший наибольшее количество баллов во второй день, в первый день будет хуже. И если мы сравним лучшего ученика в первый день с лучшим учеником во второй день, независимо от того, тот же человек это или нет, есть тенденция к регрессу к среднему значению в любом направлении. Мы ожидаем, что лучшие результаты в оба дня будут одинаково далеки от среднего значения.

Заблуждения регрессии [ править ]

Многие явления, как правило, объясняются неправильными причинами, когда не принимается во внимание регресс к среднему значению.

Ярким примером является книга Горация Секриста « Триумф посредственности в бизнесе » 1933 года , в которой профессор статистики собрал огромное количество данных, чтобы доказать, что нормы прибыли конкурентоспособных предприятий с течением времени стремятся к среднему. На самом деле такого эффекта нет; изменчивость нормы прибыли практически постоянна во времени. Secrist описал только обычную регрессию к среднему значению. Один раздраженный рецензент, Гарольд Хотеллинг , сравнил книгу с «доказательством таблицы умножения, расположив слонов в ряды и столбцы, а затем проделав то же самое с множеством других видов животных». [14]

Вычисление и интерпретация «баллов улучшения» стандартизированных образовательных тестов в Массачусетсе, вероятно, являются еще одним примером ошибки регрессии. [ необходима цитата ]В 1999 году перед школами были поставлены цели по улучшению. Для каждой школы Департамент образования свел в таблицу разницу в средних баллах, полученных учащимися в 1999 и 2000 годах. Было быстро отмечено, что большинство школ с наихудшими результатами достигли своих целей, что Министерство образования приняло за подтверждение этого. обоснованность их политики. Однако было также отмечено, что многие из якобы лучших школ Содружества, такие как Средняя школа Бруклина (с 18 финалистами Национальной стипендии), были объявлены провалившимися. Как и во многих случаях, связанных со статистикой и государственной политикой, этот вопрос обсуждается, но «оценки улучшений» не объявлялись в последующие годы, и результаты представляются случаем возврата к среднему значению.

Психолог Даниэль Канеман , лауреат Нобелевской премии по экономическим наукам 2002 года , отметил, что возвращение к среднему значению может объяснить, почему упреки могут улучшить результативность, а похвала, похоже, имеет неприятные последствия. [15]

У меня был самый приятный опыт работы с Eureka в моей карьере, когда я пытался научить летных инструкторов тому, что похвала более эффективна, чем наказание за поощрение обучения навыкам. Когда я закончил свою восторженную речь, один из самых опытных инструкторов в аудитории поднял руку и произнес свою короткую речь, в которой признал, что положительное подкрепление может быть полезно для птиц, но продолжал отрицать, что это оптимально. для летных курсантов. Он сказал: «Я много раз хвалил курсантов за чистое выполнение некоторых фигур высшего пилотажа, и в целом, когда они пробуют его снова, они делают хуже. С другой стороны, я часто кричал на курсантов за плохое выполнение и в в общем, в следующий раз они добьются большего успеха. Поэтому, пожалуйста, не говорите нам, что подкрепление работает, а наказание - нет, потому что все наоборот ".Это был радостный момент, когда я понял важную истину о мире: потому что мы склонны вознаграждать других, когда они поступают хорошо, и наказывать их, когда они поступают плохо, и поскольку есть регресс к среднему, это часть человеческого условие, что мы статистически наказаны за вознаграждение других и вознаграждены за их наказание. Я немедленно устроил демонстрацию, в которой каждый участник бросил две монеты в мишень за спиной, без какой-либо обратной связи. Мы измерили расстояния от цели и увидели, что те, кто лучше всех показал себя с первого раза, в основном ухудшились со второй попытки, и наоборот. Но я знал, что эта демонстрация не устранит последствий пожизненного воздействия извращенной непредвиденной ситуации.потому что мы склонны вознаграждать других, когда они поступают хорошо, и наказывать их, когда они поступают плохо, и из-за того, что существует регресс к среднему значению, часть человеческого состояния состоит в том, что нас статистически наказывают за вознаграждение других и вознаграждают за их наказание. Я немедленно устроил демонстрацию, в которой каждый участник бросил две монеты в мишень за спиной, без какой-либо обратной связи. Мы измерили расстояния от цели и увидели, что те, кто лучше всех показал себя с первого раза, в основном ухудшились со второй попытки, и наоборот. Но я знал, что эта демонстрация не устранит последствий пожизненного воздействия извращенной непредвиденной ситуации.потому что мы склонны вознаграждать других, когда они поступают хорошо, и наказывать их, когда они поступают плохо, и из-за того, что существует регресс к среднему значению, часть человеческого состояния состоит в том, что нас статистически наказывают за вознаграждение других и вознаграждают за их наказание. Я немедленно устроил демонстрацию, в которой каждый участник бросил две монеты в мишень за спиной, без какой-либо обратной связи. Мы измерили расстояния от цели и увидели, что те, кто лучше всех показал себя с первого раза, в основном ухудшились со второй попытки, и наоборот. Но я знал, что эта демонстрация не устранит последствий пожизненного воздействия извращенной непредвиденной ситуации.Это часть человеческого состояния, когда мы статистически наказываемся за вознаграждение других и награждаемся за их наказание. Я немедленно устроил демонстрацию, в которой каждый участник бросил две монеты в мишень за спиной, без какой-либо обратной связи. Мы измерили расстояния от цели и увидели, что те, кто лучше всех показал себя с первого раза, в основном ухудшились со второй попытки, и наоборот. Но я знал, что эта демонстрация не устранит последствий пожизненного воздействия извращенной непредвиденной ситуации.Это часть человеческого состояния, когда мы статистически наказываемся за вознаграждение других и награждаемся за их наказание. Я немедленно устроил демонстрацию, в которой каждый участник бросил две монеты в мишень за спиной, без какой-либо обратной связи. Мы измерили расстояния от цели и увидели, что те, кто лучше всех показал себя с первого раза, в основном ухудшились со второй попытки, и наоборот. Но я знал, что эта демонстрация не устранит последствий пожизненного воздействия извращенной непредвиденной ситуации.Но я знал, что эта демонстрация не устранит последствий пожизненного воздействия извращенной непредвиденной ситуации.Но я знал, что эта демонстрация не устранит последствий пожизненного воздействия извращенной непредвиденной ситуации.

Проще говоря, если кто-то совершает серьезную ошибку, их производительность позже обычно возвращается к своему среднему уровню. Это будет казаться улучшением и «доказательством» убеждения, что лучше критиковать, чем хвалить (особенно у тех, кто готов критиковать в этот «низкий» момент). В противоположной ситуации, когда кто-то показывает результат выше среднего, его производительность также будет иметь тенденцию вернуться к своему среднему уровню позже; изменение будет восприниматься как ухудшение, а любая первоначальная похвала после первого выступления - как причина этого ухудшения. Просто потому, что критика или похвала предшествуют регрессу к среднему, акт критики или похвалы ложно приписывается причинности.Ошибка регрессии также объясняется у Рольфа Добелли.«S Искусство мышления Ясно .

Политика правоохранительных органов Великобритании поощряет установку статических или мобильных камер контроля скорости в местах обнаружения аварийных ситуаций . Эта политика была оправдана представлением о соответствующем сокращении серьезных дорожно-транспортных происшествий после установки камеры. Тем не менее, статистики отмечают, что, хотя есть чистая выгода в виде спасенных жизней, игнорирование эффектов регрессии к среднему значению приводит к завышению положительных эффектов. [16] [17] [18]

Статистические аналитики давно осознали эффект возврата к среднему значению в спорте; у них даже есть специальное название: « спад на втором курсе ». Например, Кармело Энтони из НБА «s Денвер Наггетс был выдающийся сезон новобранец в 2004 году был настолько выдающимся , что он не мог ожидать , чтобы повторить: в 2005 году число Энтони упал с его дебютном сезоне. Причин для «спада на втором курсе» предостаточно, поскольку спорт полагается на приспособление и противодействие, но успех новичка, основанный на удаче, является такой же хорошей причиной, как и любая другая. Регресс к среднему значению спортивных результатов также может объяснить очевидное " сглазание обложки Sports Illustrated " и "Безумное проклятие ".У Джона Холлингера есть альтернативное название феномену регрессии к среднему: «правило случайности» [ цитата необходима ] , в то время как Билл Джеймс называет его «принципом оргстекла». [ необходима цитата ]

Поскольку популярные предания сосредоточены на регрессе к среднему значению как на объяснении снижения результативности спортсменов от одного сезона к другому, обычно игнорируется тот факт, что такой регресс также может объяснить улучшение результатов. Например, если посмотреть на средний уровень в МЛБ игроков в один сезон, те, средний уровень был выше среднего лиги , как правило, регресс вниз по направлению к средней в следующем году, в то время как те , чей средний уровень был ниже среднего , как правило, в следующем году продвинутся вверх к среднему значению. [19]

Другие статистические явления [ править ]

Регрессия к среднему значению просто говорит о том, что после экстремального случайного события следующее случайное событие, вероятно, будет менее экстремальным. Ни в коем случае будущее событие не «компенсирует» или «сглаживает» предыдущее событие, хотя это предполагается в заблуждении игрока (и в альтернативном законе средних значений ). Аналогично закон больших чиселзаявляет, что в долгосрочной перспективе среднее значение будет стремиться к ожидаемому значению, но не делает никаких заявлений об отдельных испытаниях. Например, после серии 10 орлов при подбрасывании справедливой монеты (редкое, экстремальное событие) регрессия к среднему показывает, что следующая серия орлов, вероятно, будет меньше 10, в то время как закон больших чисел гласит, что в долгосрочной перспективе это событие, вероятно, будет усреднено, и средняя доля орлов будет стремиться к 1/2. В отличие от этого, ошибка игрока ошибочно предполагает, что монета теперь "должна" выпадать решкой для уравновешивания.

Противоположный эффект - регрессия к хвосту, возникающая в результате распределения с ненулевой плотностью вероятности к бесконечности [20]

Определение простой линейной регрессии точек данных [ править ]

Это определение регресса к среднему значению, которое близко следует первоначальному использованию сэра Фрэнсиса Гальтона . [12]

Предположим, что имеется n точек данных { y i , x i }, где i  = 1, 2,…, n . Мы хотим найти уравнение линии регрессии , т.е. прямой

что обеспечило бы "наилучшее" соответствие точкам данных. (Обратите внимание, что прямая линия может не быть подходящей кривой регрессии для заданных точек данных.) Здесь «лучший» будет пониматься как в подходе наименьших квадратов : такая линия, которая минимизирует сумму квадратов остатков линейной регрессии. модель. Другими словами, числа α и β решают следующую задачу минимизации:

Найди , где

Используя исчисление, можно показать, что значения α и β, которые минимизируют целевую функцию Q, равны

где г ху есть образец коэффициент корреляции между х и у , ев х это стандартное отклонение от х , и ев у , соответственно , стандартное отклонение у . Горизонтальная полоса над переменной означает выборочное среднее значение этой переменной. Например:

Подстановка приведенных выше выражений для и в дает подогнанные значения

что дает

Это показывает роль r xy в линии регрессии стандартизованных точек данных.

Если -1 <  r xy  <1, то мы говорим, что точки данных демонстрируют регрессию к среднему значению. Другими словами, если линейная регрессия является подходящей моделью для набора точек данных, коэффициент корреляции выборки которых не идеален, то существует регрессия к среднему значению. Прогнозируемое (или подобранное) стандартизованное значение y ближе к своему среднему значению, чем стандартизованное значение x к его среднему значению.

Определения для двумерного распределения с идентичными предельными распределениями [ править ]

Ограничительное определение [ править ]

Пусть X 1 , X 2 - случайные величины с одинаковыми маргинальными распределениями со средним μ . В этой формализации, то распределение бивариантное из X 1 и X 2 называются выставочной регрессии , если для любого числа гр  >  ц , мы имеем

μ  ≤ E [ X 2  | X 1  =  c ] <  c ,

с обратными неравенствами при c  <  μ . [7] [21]

Ниже приводится неформальное описание приведенного выше определения. Рассмотрим совокупность виджетов . Каждый виджет имеет два числа, X 1 и X 2 (скажем, его левый диапазон ( X 1 ) и правый диапазон ( X 2 )). Предположим, что распределения вероятностей X 1 и X 2 в совокупности идентичны, и что средние значения X 1 и X 2 оба равны μ . Теперь мы берем случайный виджет из популяции и обозначаем его значение X 1 через c . (Обратите внимание, чтоc может быть больше, равно или меньше μ .) У нас пока нет доступа к значению X 2 этого виджета . Пусть d обозначает ожидаемое значение X 2 этого конкретного виджета. ( т.е. пусть d обозначает среднее значение X 2 всех виджетов в популяции с X 1 = c .) Если выполняется следующее условие:

Каким бы ни было значение c , d лежит между μ и c ( т. Е. D ближе к μ, чем c ),

тогда мы говорим, что X 1 и X 2 показывают регресс к среднему значению .

Это определение близко соответствует нынешнему общепринятому использованию термина «регрессия к среднему», развившемуся от первоначального использования Гальтоном. Он «ограничительный» в том смысле, что не каждое двумерное распределение с идентичными предельными распределениями демонстрирует регрессию к среднему значению (согласно этому определению). [21]

Теорема [ править ]

Если пара ( XY ) случайных величин следует двумерное нормальное распределение , то условное среднее Е ( Y | X ) является линейной функцией от X . Коэффициент корреляции r между X и Y , наряду с предельными средними и дисперсиями X и Y , определяет эту линейную зависимость:

где E [X] и E [Y] - ожидаемые значения X и Y соответственно, а σ x и σ y - стандартные отклонения X и Y соответственно.

Следовательно, условное ожидаемое значение Y , при условии , что Х является т стандартных отклонений выше его среднего (и что включает в себя случай , когда она ниже его среднего, при т  <0), является RT стандартного отклонения выше среднего значения Y . Поскольку | г | ≤ 1, Y не дальше от среднего значения, чем X , как измерено в количестве стандартных отклонений. [22]

Следовательно, если 0 ≤  r  <1, то ( XY ) показывает регресс к среднему (согласно этому определению).

Общее определение [ править ]

Следующее определение возврата к среднему было предложено Сэмюэлсом в качестве альтернативы более ограниченному определению регрессии к среднему, приведенному выше. [7]

Пусть X 1 , X 2 - случайные величины с одинаковыми маргинальными распределениями со средним μ . В этой формализации, то распределение бивариантное из X 1 и X 2 называются выставочной реверсии по направлению к среднему , если для любого число с , мы имеем

μ  ≤ E [ X 2  | X 1  >  c ] <E [ X 1  | X 1  >  c ], и
μ  ≥ E [ X 2  | X 1  <  c ]> E [ X 1  | X 1  <  c ]

Это определение является «общим» в том смысле, что каждое двумерное распределение с идентичными предельными распределениями демонстрирует возврат к среднему значению .

См. Также [ править ]

  • Принцип Харди – Вайнберга
  • Внутренняя валидность
  • Закон больших чисел
  • Мартингейл
  • Разбавление регрессии
  • Критерий отбора

Ссылки [ править ]

  1. ^ Everitt, BS (2002) Кембриджский статистический словарь , CUP. ISBN  0-521-81099-X
  2. ^ Аптон, Г., Кук, И. (2006) Оксфордский статистический словарь , OUP. ISBN 978-0-19-954145-4 
  3. Перейти ↑ Stigler, Stephen M (1997). «Исторически рассмотренный регресс к среднему» . Статистические методы в медицинских исследованиях . 6 (2): 103–114. DOI : 10.1191 / 096228097676361431 . PMID 9261910 . 
  4. ^ Chiolero, A; Paradis, G; Rich, B; Хэнли, Дж. А. (2013). «Оценка взаимосвязи между базовым значением непрерывной переменной и последующими изменениями с течением времени» . Границы общественного здравоохранения . 1 : 29. DOI : 10,3389 / fpubh.2013.00029 . PMC 3854983 . PMID 24350198 .  
  5. Перейти ↑ Galton, F (1889). Естественное наследование . Лондон: Макмиллан.
  6. Стиглер, Стивен М. (01.07.2010). «Дарвин, Гальтон и статистическое просвещение». Журнал Королевского статистического общества, Series A . 173 (3): 469–482, 477. DOI : 10.1111 / j.1467-985X.2010.00643.x . ISSN 1467-985X . 
  7. ^ a b c Майра Л. Сэмюэлс (ноябрь 1991 г.). «Статистическая реверсия к среднему: более универсальна, чем регрессия к среднему». Американский статистик . 45 (4): 344–346. DOI : 10.2307 / 2684474 . JSTOR 2684474 . .
  8. ^ Джереми Сигел (2007). Акции в долгосрочной перспективе (4-е изд.). Макгроу-Хилл. С.  13, 28–29 . ISBN 978-0071494700.
  9. ^ «Статистический обзор книги Даниэль Канеман-Бернс« Мышление, быстро и медленно »» .
  10. ^ «Что такое регрессия к среднему? Определение и примеры» . conceptually.org . Проверено 25 октября 2017 года .
  11. ^ Goldacre, Бен. Плохая наука . Стр. 39. Лондон: Четвертое сословие, 2008.
  12. ^ a b c Гальтон, Ф. (1886). «Регресс к посредственности в наследственном росте» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. DOI : 10.2307 / 2841583 . JSTOR 2841583 . 
  13. Перейти ↑ Kahneman, D. (2011) «Thinking Fast and Slow , FSG. ISBN 978-0-374-27563-1 
  14. ^ Hotelling, H. (1934). Открытые письма, Журнал Американской статистической ассоциации , 29, 198–199.
  15. ^ Defulio, Энтони (2012). «Цитата: Канеман о непредвиденных обстоятельствах» . Журнал экспериментального анализа поведения . 97 (2): 182. DOI : 10,1901 / jeab.2012.97-182 . PMC 3292229 . 
  16. The Times, 16 декабря 2005 г. Преимущества камеры контроля скорости переоценены.
  17. Перейти ↑ Mountain, L. (2006). «Камеры видеонаблюдения: налог на скрытность или спасатели?» . Значение . 3 (3): 111–113. DOI : 10.1111 / j.1740-9713.2006.00179.x .
  18. ^ Maher, M .; Гора, Л. (2009). «Чувствительность оценок регрессии к среднему». Анализ и предотвращение несчастных случаев . 41 (4): 861–8. DOI : 10.1016 / j.aap.2009.04.020 . PMID 19540977 . 
  19. Для иллюстрации см. Нейт Сильвер , «Случайность: поймать лихорадку!»,Бейсбольный проспект , 14 мая 2003 г.
  20. ^ Flyvbjerg, Бент (2020-10-05). «Закон регресса в хвост: как пережить Covid-19, климатический кризис и другие бедствия» . Экологическая наука и политика . 114 : 614–618. DOI : 10.1016 / j.envsci.2020.08.013 . ISSN 1462-9011 . PMC 7533687 . PMID 33041651 .   
  21. ^ a b Шмиттлейн (1989)
  22. ^ Черник и Фриис (2003)

Дальнейшее чтение [ править ]

  • Дж. М. Бланд и Д. Г. Альтман (июнь 1994 г.). «Статистические заметки: регресс к среднему значению» . Британский медицинский журнал . 308 (6942): 1499. DOI : 10.1136 / bmj.308.6942.1499 . PMC  2540330 . PMID  8019287 . Статья, включая диаграмму исходных данных Гальтона.
  • Майкл Р. Черник и Роберт Х. Фриис (2003). Вводная биостатистика для наук о здоровье . Wiley-Interscience . п. 272. ISBN. 978-0-471-41137-6.
  • Эдвард Дж. Дудевич и Сатья Н. Мишра (1988). «Раздел 14.1: Оценка параметров регрессии; Линейные модели». Современная математическая статистика . Джон Вили и сыновья . ISBN 978-0-471-81472-6.
  • Фрэнсис Гальтон (1886). «Регресс к посредственности в наследственном росте» (PDF) . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. DOI : 10.2307 / 2841583 . JSTOR  2841583 .
  • Дональд Ф. Моррисон (1967). «Глава 3: Образцы из многомерной нормальной популяции». Многомерные статистические методы . Макгроу-Хилл . ISBN 978-0-534-38778-5.
  • Стивен М. Стиглер (1999). «Глава 9». Статистика в таблице . Издательство Гарвардского университета .
  • Майра Л. Сэмюэлс (ноябрь 1991 г.). «Статистическая реверсия к среднему: более универсальна, чем регрессия к среднему». Американский статистик . 45 (4): 344–346. DOI : 10.2307 / 2684474 . JSTOR  2684474 .
  • Стивен Сенн. Регрессия: новый способ для старого смысла , Американский статистик , Том 44, № 2 (май 1990 г.), стр. 181–183.
  • Дэвид С. Шмиттлейн. Неожиданные выводы из неудивительных наблюдений: действительно ли условные ожидания возвращаются к среднему значению? Американский статистик , Том 43, № 3 (август 1989 г.), стр. 176–183.
  • Регрессия к среднему и изучение изменений , Психологический бюллетень
  • Нематематическое объяснение регресса к среднему.
  • Моделирование регресса к среднему значению.
  • Аманда Ваксмут, Леланд Уилкинсон, Джерард Э. Даллал. Изгиб Гальтона: неоткрытая нелинейность в данных регрессии роста семьи Гальтона и вероятное объяснение, основанное на данных о росте Пирсона и Ли (современный взгляд на анализ Гальтона).
  • Стандартные результаты тестов Массачусетса, интерпретируемые статистиками как пример регрессии: см. Обсуждение на sci.stat.edu и его продолжение .
  • Гэри Смит , Какая удача: удивительная роль случая в нашей повседневной жизни, Нью-Йорк: Overlook, Лондон: Дакворт. ISBN 978-1-4683-1375-8 .