Коробчатый сюжет


В описательной статистике ящичковая диаграмма или ящичковая диаграмма — это метод графической демонстрации групп локальности, разброса и асимметрии числовых данных через их квартили . [1] В дополнение к блоку на блочной диаграмме могут быть линии (которые называются усами ), отходящие от блока, указывающие на изменчивость за пределами верхнего и нижнего квартилей, таким образом, график также называется диаграммой прямоугольника и усами. график и диаграмма «ящик и ус» . Выбросы , которые значительно отличаются от остальной части набора данных [2]могут быть нанесены в виде отдельных точек за пределами усов на коробчатой ​​диаграмме. Ящичные диаграммы непараметричны : они отображают вариации в выборках статистической совокупности без каких-либо предположений об основном статистическом распределении [3] (хотя ящичковая диаграмма Тьюки предполагает симметрию усов и нормальность их длины). Интервалы в каждом подразделе прямоугольной диаграммы указывают на степень дисперсии (разброса) и асимметрии данных, которые обычно описываются с помощью сводки из пяти чисел . Кроме того, ящичковая диаграмма позволяет визуально оценить различные L-оценки , особенно межквартильный размах ,средний шарнир , диапазон , средний диапазон и тримеан . Блочные диаграммы можно рисовать как горизонтально, так и вертикально.

Метод полос диапазона был впервые представлен Мэри Элеонор Спир в ее книге «Статистика графиков» в 1952 году [4] и снова в ее книге «Практические методы построения графиков» в 1969 году. [5] Впервые был представлен график «ящик с усами» . в 1970 году Джоном Тьюки , который позже опубликовал по этому вопросу в своей книге «Исследовательский анализ данных» в 1977 году. [6]

Блочная диаграмма — это стандартизированный способ отображения набора данных на основе сводки из пяти чисел : минимум, максимум, медиана выборки, а также первый и третий квартили.

В дополнение к минимальным и максимальным значениям, используемым для построения коробчатой ​​диаграммы, еще одним важным элементом, который также можно использовать для получения коробчатой ​​диаграммы, является межквартильный диапазон (IQR), как указано ниже:

Блочная диаграмма обычно состоит из двух частей: прямоугольника и набора усов, как показано на рис. 2. Самая нижняя точка на блочной диаграмме (т. е. граница нижнего уса) представляет собой минимальное значение набора данных, точка (т. е. граница верхнего уса) является максимальным значением набора данных (исключая любые выбросы). Коробка проведена от Q 1 до Q 3 с горизонтальной линией, проведенной посередине, чтобы обозначить медиану.

Тот же набор данных можно также представить в виде диаграммы с помощью другого подхода, как показано на рисунке 3. На этот раз границы усов находятся в пределах значения IQR 1,5. Сверху верхнего квартиля ( Q 3 ) измеряется расстояние, в 1,5 раза превышающее IQR, и проводится ус до наибольшей наблюдаемой точки данных из набора данных, которая попадает в это расстояние. Точно так же расстояние в 1,5 раза больше IQR измеряется ниже нижнего квартиля ( Q 1 ), и усик проводится вниз до самой низкой наблюдаемой точки данных из набора данных, которая попадает в это расстояние. Все другие наблюдаемые точки данных за пределами границ усов отображаются как выбросы. [8]Выбросы могут быть нанесены на диаграмму в виде точки, маленького круга, звезды и т. д .


Рис. 1. Коробчатая диаграмма данных эксперимента Майкельсона .
Рисунок 2. Коробчатая диаграмма с усами от минимума до максимума
Рисунок 3. Тот же блок-график с усами, нарисованными в пределах значения IQR 1,5.
Рисунок 4. Четыре диаграммы с выемками и без них, а также с переменной шириной
Рисунок 5. Сгенерированная блочная диаграмма примера слева без выбросов.
Рисунок 6. Сгенерированная блочная диаграмма примера слева с выбросами.
Рисунок 7. Блочная диаграмма и функция плотности вероятности (PDF) для нормальной популяции N(0,1σ 2 )
Рисунок 8. Коробчатые диаграммы, отображающие асимметрию набора данных