Квартет Анскомба состоит из четырех наборов данных, которые имеют почти идентичную простую описательную статистику , но при этом имеют очень разные распределения и сильно различаются на графике . Каждый набор данных состоит из одиннадцати ( x , y ) точек . Они были построены в 1973 году статистиком Фрэнсисом Анскомбом, чтобы продемонстрировать важность построения графиков данных перед их анализом, а также влияние выбросов и других важных наблюдений.по статистическим свойствам. Он описал, что эта статья предназначена для того, чтобы противостоять впечатлению статистиков о том, что «численные расчеты точны, а графики грубые». [1] Он был воспроизведен как настоящий музыкальный квартет . [2]
Данные
Для всех четырех наборов данных:
Имущество | Значение | Точность |
---|---|---|
Среднее из й | 9 | точный |
Образец дисперсия от й : s2 х | 11 | точный |
Среднее значение y | 7,50 | до 2 знаков после запятой |
Выборочная дисперсия y : s2 лет | 4,125 | ± 0,003 |
Корреляция между x и y | 0,816 | до 3 знаков после запятой |
Линия линейной регрессии | у = 3,00 + 0,500 х | до 2 и 3 знаков после запятой соответственно |
Коэффициент детерминации линейной регрессии: | 0,67 | до 2 знаков после запятой |
- Первый график разброса (вверху слева) представляет собой простую линейную зависимость , соответствующую двум коррелированным переменным, где y можно моделировать как гауссовское со средним значением, линейно зависящим от x .
- Второй график (вверху справа) не распределяется нормально; Хотя связь между двумя переменными очевидна, она не является линейной, и коэффициент корреляции Пирсона не имеет значения. Более подходящей была бы более общая регрессия и соответствующий коэффициент детерминации .
- На третьем графике (внизу слева) распределение является линейным, но должно иметь другую линию регрессии ( требовалась бы надежная регрессия ). Рассчитанная регрессия компенсируется одним выбросом, который оказывает достаточное влияние, чтобы снизить коэффициент корреляции с 1 до 0,816.
- Наконец, четвертый график (нижний правый) показывает пример, когда одной точки с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо взаимосвязь между переменными.
Квартет по-прежнему часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с определенным типом взаимосвязи, а также неадекватности основных статистических свойств для описания реалистичных наборов данных. [3] [4] [5] [6] [7]
Наборы данных следующие. Значения x одинаковы для первых трех наборов данных. [1]
я | II | III | IV | ||||
---|---|---|---|---|---|---|---|
Икс | у | Икс | у | Икс | у | Икс | у |
10.0 | 8,04 | 10.0 | 9,14 | 10.0 | 7,46 | 8.0 | 6.58 |
8.0 | 6,95 | 8.0 | 8,14 | 8.0 | 6,77 | 8.0 | 5,76 |
13.0 | 7,58 | 13.0 | 8,74 | 13.0 | 12,74 | 8.0 | 7,71 |
9.0 | 8,81 | 9.0 | 8,77 | 9.0 | 7,11 | 8.0 | 8,84 |
11.0 | 8,33 | 11.0 | 9,26 | 11.0 | 7,81 | 8.0 | 8,47 |
14.0 | 9,96 | 14.0 | 8.10 | 14.0 | 8,84 | 8.0 | 7,04 |
6.0 | 7,24 | 6.0 | 6,13 | 6.0 | 6,08 | 8.0 | 5,25 |
4.0 | 4,26 | 4.0 | 3.10 | 4.0 | 5,39 | 19.0 | 12,50 |
12.0 | 10,84 | 12.0 | 9,13 | 12.0 | 8,15 | 8.0 | 5,56 |
7.0 | 4.82 | 7.0 | 7,26 | 7.0 | 6,42 | 8.0 | 7,91 |
5.0 | 5,68 | 5.0 | 4,74 | 5.0 | 5,73 | 8.0 | 6,89 |
Неизвестно, как Анскомб создавал свои наборы данных. [8] С момента публикации было разработано несколько методов для создания похожих наборов данных с идентичной статистикой и несходной графикой. [8] [9] Один из них, Дюжина Датазавров , состоит из точек, очерчивающих контур динозавра, плюс двенадцать других наборов данных, которые имеют такую же сводную статистику. [10] [11] [12]
Смотрите также
Рекомендации
- ^ a b Анскомб, FJ (1973). «Графики в статистическом анализе». Американский статистик . 27 (1): 17–21. DOI : 10.1080 / 00031305.1973.10478966 . JSTOR 2682899 .
- ^ https://flat.io/score/60a8d8653374193bc2aa3633-anscombe-s-quartet
- ^ Элерт, Гленн. «Линейная регрессия» . Гипертекст по физике .
- ^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом . O'Reilly Media . С. 65–66 . ISBN 0-596-80235-8.
- ^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере . Джон Уайли и сыновья. п. 91. ISBN 0-471-74696-7.
- ^ Сэвилл, Дэвид Дж .; Вуд, Грэм Р. (1991). Статистические методы: геометрический подход . Springer . п. 418. ISBN 0-387-97517-9.
- ^ Тафт, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN 0-9613921-4-2.
- ^ а б Чаттерджи, Сангит; Фират, Айкут (2007). «Создание данных с идентичной статистикой, но с разной графикой: продолжение набора данных Anscombe». Американский статистик . 61 (3): 248–254. DOI : 10.1198 / 000313007X220057 . JSTOR 27643902 .
- ^ Матейка, Джастин; Фитцморис, Джордж (2017). «Та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичной статистикой посредством имитации отжига». Труды конференции CHI 2017 г. по человеческому фактору в вычислительных системах : 1290–1294. DOI : 10.1145 / 3025453.3025912 .
- ^ Мюррей, Лори Л .; Уилсон, Джон Г. (апрель 2021 г.). «Создание наборов данных для обучения важности регрессионного анализа» . Журнал Decision Sciences инновационного образования . 19 (2): 157–166. DOI : 10.1111 / dsji.12233 . ISSN 1540-4595 .
- ^ Андриенко, Наталья; Андриенко, Геннадий; Фукс, Георг; Слингсби, Эйдан; Туркай, Чагатай; Вробель, Стефан (2020), «Визуальная аналитика для исследования и обработки данных» , « Визуальная аналитика для специалистов по данным» , Cham: Springer International Publishing, стр. 151–180, DOI : 10.1007 / 978-3-030-56146-8_5 , ISBN 978-3-030-56145-1, получено 2021-04-20
- ^ Матейка, Джастин; Фитцморис, Джордж (2017). «Та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичной статистикой посредством имитации отжига» . Autodesk Research . Проверено 20 апреля 2021 .
Внешние ссылки
- Физический факультет Университета Торонто
- Динамический апплет, созданный в GeoGebra, показывающий данные и статистику, а также позволяющий перетаскивать точки (Набор 5).
- Анимированные примеры от Autodesk под названием «Дюжина датазавров».
- Документы для наборов данных в R .