В описательных статистиках , коробка участок или boxplot является способом графический изображающими групп числовых данных через их квартиль . Box участки также могут иметь линии , простирающиеся от коробки ( усов ) , указывающей изменчивости за пределами верхней и нижней квартили, следовательно , термины коробчатых и усы-сюжет и коробчатой и усы-схему . Выбросы могут быть нанесены на график как отдельные точки. Ящичные диаграммы не являются параметрическими : они отображают вариации в выборках статистической совокупности без каких-либо предположений относительно основного статистического распределения.(хотя коробчатая диаграмма Тьюки предполагает симметрию усов и нормальность их длины). Расстояние между различными частями прямоугольника указывает на степень дисперсии (разброса) и асимметрии данных и показывает выбросы . В дополнение к самим точкам они позволяют визуально оценить различные L-оценки , в частности межквартильный размах , середину , размах , средний диапазон и трисредний . Коробчатые диаграммы можно рисовать как по горизонтали, так и по вертикали. Коробчатые диаграммы получили свое название от прямоугольника посередине.
История коробчатого сюжета [ править ]
Полоса дальности была представлена Мэри Элеонор Спир в 1952 году [1] и снова в 1969 году. [2] График ящика и усов был впервые представлен в 1970 году Джоном Тьюки , который позже опубликовал на эту тему в 1977 году [3].
Элементы коробчатой графики [ править ]
Коробчатая диаграмма - это стандартизированный способ отображения набора данных на основе пятизначной сводки : минимум, максимум, медиана выборки, а также первый и третий квартили.
Минимум ( Q 0 или 0-й процентиль) : самая низкая точка данных без каких-либо выбросов.
Максимум ( Q 4 или 100-й процентиль) : наибольшая точка данных без каких-либо выбросов.
Медиана ( Q 2 или 50-й процентиль) : среднее значение набора данных.
Первый квартиль ( Q 1 или 25-й процентиль) : также известный как нижний квартиль q n (0,25), это медиана нижней половины набора данных.
Третий квартиль ( Q 3 или 75-й процентиль) : также известный как верхний квартиль q n (0,75), является медианным значением верхней половины набора данных. [4]
Важным элементом, используемым для построения прямоугольной диаграммы путем определения минимальных и максимальных значений данных, которые возможны, но не являются частью вышеупомянутой пятизначной сводки, является межквартильный диапазон или IQR, обозначенный ниже:
Межквартильный размах (IQR) : это расстояние между верхним и нижним квартилями.
Коробчатая диаграмма состоит из двух частей, прямоугольника и набора усов, показанных на рисунке 2. Самая низкая точка - это минимум набора данных, а самая высокая точка - максимум набора данных. Прямоугольник проведен от Q 1 до Q 3 с горизонтальной линией посередине для обозначения медианы.
Тот же набор данных также может быть представлен в виде прямоугольной диаграммы, показанной на рисунке 3. Сверху верхнего квартиля измеряется расстояние, в 1,5 раза превышающее IQR, и проводится усы до самой большой наблюдаемой точки из набора данных, которая попадает в этот расстояние. Точно так же расстояние, в 1,5 раза превышающее IQR, измеряется ниже нижнего квартиля, а усы протягиваются до нижней наблюдаемой точки из набора данных, которая попадает в это расстояние. Все остальные наблюдаемые точки отображаются как выбросы. [5]
Однако усы могут представлять несколько возможных альтернативных значений, среди которых:
- минимум и максимум всех данных (как на рисунке 2)
- одно стандартное отклонение выше и ниже среднего значения данных
- 9-й процентиль и 91-й процентиль
- 2-й процентиль и 98-й процентиль .
Любые данные, не включенные между усами, должны быть нанесены как выброс с точкой, маленьким кружком или звездочкой, но иногда этого не делается.
Некоторые коробчатые диаграммы включают дополнительный символ для представления среднего значения данных. [6] [7]
На некоторых коробчатых диаграммах на каждом усе перед концом наносится перекрестие.
Редко коробчатые диаграммы могут быть представлены вообще без усов.
Из-за этой изменчивости уместно описать соглашение, используемое для усов и выбросов, в подписи к графику.
Необычные процентили 2%, 9%, 91%, 98% иногда используются для штриховки усов и концов усов, чтобы показать семизначную сводку . Если данные распределены нормально , места семи отметок на прямоугольной диаграмме будут равномерно распределены.
Варианты [ править ]
С тех пор, как математик Джон У. Тьюки популяризировал этот тип отображения визуальных данных в 1969 году, было описано несколько вариантов традиционной прямоугольной диаграммы. Двумя наиболее распространенными являются прямоугольные диаграммы переменной ширины и прямоугольные диаграммы с надрезом (см. Рисунок 4).
Графики ящиков переменной ширины иллюстрируют размер каждой группы, данные которой выводятся на график, делая ширину ящика пропорциональной размеру группы. Популярное соглашение - сделать ширину прямоугольника пропорциональной квадратному корню из размера группы. [8]
На прямоугольных диаграммах с надрезом применяется «надрез» или сужение прямоугольника вокруг медианы. Вырезы полезны, поскольку предлагают приблизительное представление о значении разницы медиан; если выемки двух прямоугольников не перекрываются, это свидетельствует о статистически значимой разнице между медианами. [8] Ширина меток пропорциональна межквартильному диапазону (IQR) выборки и обратно пропорциональна квадратному корню из размера выборки. Однако существует неопределенность относительно наиболее подходящего множителя (поскольку он может варьироваться в зависимости от схожести дисперсий выборок). [8] Одно из соглашений - использовать . [9]
Скорректированные ящичные диаграммы предназначены для неравномерного распределения . Они полагаются на статистику асимметрии для пары . [10] Для среднего значения MC длины верхних и нижних усов соответственно определены как
Для симметричных распределений медпара будет равна нулю, и это сводится к диаграмме Тьюки с равными длинами усов для обоих усов.
Другие виды графиков, такие как графики скрипки и бобовые графики, могут показать разницу между одномодальным и мультимодальным распределениями, разницу, которую нельзя увидеть с исходной коробчатой графикой. [11]
Примеры [ править ]
Пример без выбросов [ править ]
В течение дня в течение дня измерялись почасовые измерения температуры в градусах Фаренгейта. Записанные значения перечислены в следующем порядке: 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.
Ящичковая диаграмма данных может быть создана путем вычисления пяти соответствующих значений: минимума, максимума, медианы, первого квартиля и третьего квартиля.
Минимум - это наименьший номер набора. В этом случае минимальная дневная температура составляет 57 ° F.
Максимум - это наибольшее количество набора. В этом случае максимальная дневная температура составляет 81 ° F.
Медиана - это «средний» номер упорядоченного набора. Это означает, что ровно 50% элементов меньше медианы и 50% элементов больше медианы. Медиана этого заказанного набора составляет 70 ° F.
Значение первого квартиля - это число, обозначающее одну четверть упорядоченного набора. Другими словами, ровно 25% элементов меньше первого квартиля и ровно 75% элементов больше. Значение первого квартиля можно легко определить, найдя «среднее» число между минимумом и медианой. Для почасовой температуры «среднее» число между 57 ° F и 70 ° F составляет 66 ° F.
Значение третьего квартиля - это число, обозначающее три четверти упорядоченного набора. Другими словами, ровно 75% элементов меньше первого квартиля и 25% элементов больше. Значение третьего квартиля можно легко определить, найдя «среднее» число между медианой и максимумом. Для почасовой температуры «среднее» число между 70 ° F и 81 ° F составляет 75 ° F.
Межквартильный размах, или IQR, можно рассчитать:
Следовательно,
1.5 IQR выше третьего квартиля:
1.5IQR ниже первого квартиля:
Верхний ус на прямоугольной диаграмме - это самый большой номер набора данных, меньший, чем 1,5IQR выше третьего квартиля. Здесь 1,5IQR выше третьего квартиля составляет 88,5 ° F, а максимальное - 81 ° F. Следовательно, верхний ус нарисован на максимальном значении 81 ° F.
Точно так же нижний ус на прямоугольной диаграмме - это наименьший номер набора данных, превышающий 1,5IQR ниже первого квартиля. Здесь 1,5IQR ниже первого квартиля составляет 52,5 ° F, а минимальное - 57 ° F. Поэтому нижний ус нарисован на минимальном значении 57 ° F.
Пример с выбросами [ править ]
Выше приведен пример без выбросов. Вот дополнительный пример с выбросами:
Заказанный набор: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79 , 89.
В этом примере изменяются только первый и последний номер. Медиана, третий квартиль и первый квартиль остаются прежними.
В этом случае максимальное значение составляет 89 ° F, а на 1,5IQR выше третьего квартиля - 88,5 ° F. Максимальное значение превышает 1,5IQR плюс третий квартиль, поэтому максимальное значение является выбросом. Следовательно, верхние усы нарисованы с максимальным значением, меньшим, чем 1,5IQR, над третьим квартилем, который составляет 79 ° F.
Точно так же минимум составляет 52 ° F, а IQR на 1,5 ниже первого квартиля составляет 52,5 ° F. Минимум меньше 1,5IQR минус первый квартиль, поэтому минимум также является выбросом. Следовательно, нижние усы отображаются при наименьшем значении, превышающем 1,5IQR, ниже первого квартиля, который составляет 57 ° F.
В случае больших наборов данных [ править ]
Общее уравнение для вычисления эмпирических квантилей [ править ]
Используя приведенный выше пример с 24 точками данных, что означает n = 24, можно также вычислить медианное значение, первый и третий квартили математически и визуально.
Медиана :
Первый квартиль :
Третий квартиль :
Визуализация [ править ]
Ящичная диаграмма позволяет быстро графически исследовать один или несколько наборов данных. Ящичные диаграммы могут показаться более примитивными, чем гистограмма или оценка плотности ядра, но у них есть некоторые преимущества. Они занимают меньше места и поэтому особенно полезны для сравнения распределений между несколькими группами или наборами данных (см. Пример на рисунке 1). Выбор количества и ширины интервалов может сильно повлиять на внешний вид гистограммы, а выбор полосы пропускания может сильно повлиять на внешний вид оценки плотности ядра.
Поскольку рассмотрение статистического распределения является более обычным делом, чем просмотр прямоугольной диаграммы, сравнение прямоугольной диаграммы с функцией плотности вероятности (теоретическая гистограмма) для нормального распределения N (0, σ 2 ) может быть полезным инструментом для понимания прямоугольной диаграммы. (Рисунок 7).
См. Также [ править ]
- Двумерный коробчатый график
- Свечной график
- Исследовательский анализ данных
- Веерная диаграмма
- Пятизначное резюме
- Функциональная коробчатая диаграмма
- Семизначное резюме
Ссылки [ править ]
- ↑ Копье, Мэри Элеонора (1952). Графическая статистика . Макгроу Хилл. п. 166.
- ↑ Копье, Мэри Элеонора. (1969). Практические приемы построения графиков . Нью-Йорк: Макгроу-Хилл. ISBN 0070600104. OCLC 924909765 .
- ^ Уикхэм, Хэдли; Стрыевский, Лиза. «40 лет коробчатым сюжетам» (PDF) . Проверено 24 декабря 2020 года .
- ^ Холмс, Александр; Ильловски, Барбара; Дин, Сьюзан. «Вводная бизнес-статистика» . OpenStax .
- ^ Dekking, FM (2005). Современное введение в вероятность и статистику . Springer. стр. 234 -238. ISBN 1-85233-896-2.
- ^ Фригге, Майкл; Хоглин, Дэвид С .; Иглевич, Борис (февраль 1989 г.). «Некоторые реализации коробчатого графика». Американский статистик . 43 (1): 50–54. DOI : 10.2307 / 2685173 . JSTOR 2685173 .
- ^ Мармолехо-Рамос, Ф .; Тиан, С. (2010). «Коробчатая диаграмма смещения. Коробчатая диаграмма, основанная на важной сводной статистике вокруг среднего» . Международный журнал психологических исследований . 3 (1): 37–46. DOI : 10.21500 / 20112084.823 .
- ^ a b c Макгилл, Роберт; Тьюки, Джон В .; Ларсен, Уэйн А. (февраль 1978 г.). «Вариации коробчатых сюжетов». Американский статистик . 32 (1): 12–16. DOI : 10.2307 / 2683468 . JSTOR 2683468 .
- ^ «R: Статистика коробчатой диаграммы» . R руководство . Проверено 26 июня 2011 года .
- ^ Хьюберт, М .; Вандервирен, Э. (2008). «Скорректированный коробчатый график для искаженного распределения». Вычислительная статистика и анализ данных . 52 (12): 5186–5201. CiteSeerX 10.1.1.90.9812 . DOI : 10.1016 / j.csda.2007.11.008 .
- ^ Уикхэм, Хэдли; Стрыевский, Лиза (2011). «40 лет коробчатым сюжетам» (PDF) .
Дальнейшее чтение [ править ]
- Джон У. Тьюки (1977). Исследовательский анализ данных . Эддисон-Уэсли .
- Бенджамини, Ю. (1988). «Открывая коробку коробчатого сюжета». Американский статистик . 42 (4): 257–262. DOI : 10.2307 / 2685133 . JSTOR 2685133 .
- Rousseeuw, PJ ; Ruts, I .; Тьюки, JW (1999). "Багажник: двумерный коробчатый сюжет". Американский статистик . 53 (4): 382–387. DOI : 10.2307 / 2686061 . JSTOR 2686061 .
Внешние ссылки [ править ]
Викискладе есть медиафайлы по теме коробчатых сюжетов . |
- Он-лайн калькулятор коробчатых графиков с пояснениями и примерами (есть пример beeswarm)
- Beeswarm Boxplot - наложение полосовой диаграммы с колебаниями частоты поверх коробчатой диаграммы
- Сложный онлайн-конструктор коробчатых диаграмм с примерами данных - см. Также BoxPlotR: веб-инструмент для создания коробчатых диаграмм Spitzer et al. Nature Methods 11, 121–122 (2014).