Мозаики участок (также известный как диаграммы Маримекко ) представляет собой графический метод для визуализации данных из двух или более качественных переменных. [1] Это многомерное расширение спайнплотов, которые графически отображают одну и ту же информацию только для одной переменной. [2] Он дает обзор данных и позволяет распознать отношения между различными переменными. Например, независимость проявляется, когда квадраты по категориям имеют одинаковые области. [3] Мозаичные сюжеты были введены Хартиганом и Кляйнером в 1981 году и расширены Friendly в 1994 году. [4] Мозаичные сюжеты также называются диаграммами Мекко из-за их сходства с диаграммами Маримекко. Распечатать.
Как и в случае с гистограммами и спайнплотами, площадь плиток, также известная как размер ячейки, пропорциональна количеству наблюдений в этой категории. [5]
Пример [ править ]
В классическом примере мозаичного изображения используются данные пассажиров Титаника . Данные, используемые для этого примера, включают 2201 наблюдение и 3 переменные. Переменные:
- пол человека (мужчина / женщина)
- класс (1-й, 2-й и 3-й класс или экипаж)
- пережил ли этот человек затопление (да / нет)?
Наблюдения были сведены в следующую таблицу:
Пол | Выжил | 1 класс | 2-й класс | 3-й класс | Экипаж |
---|---|---|---|---|---|
Мужчина | Нет | 118 | 154 | 422 | 670 |
да | 62 | 25 | 88 | 192 | |
женский | Нет | 4 | 13 | 106 | 3 |
да | 141 | 93 | 90 | 20 |
Мозаичное построение сюжета [ править ]
Заказ | Переменная | Ось |
---|---|---|
1. | Пол | Вертикальный |
2. | Класс | По горизонтали |
3. | Выжил | Вертикальный |
Сначала упорядочиваются категориальные переменные. Затем каждой переменной присваивается ось. В таблице справа представлены последовательность и классификация этого набора данных. Другое упорядочение приведет к другому мозаичному графику, т. Е. Порядок переменных имеет значение, как и для всех многомерных графиков.
На левом краю первой переменной мы сначала наносим «Пол», что означает, что мы разделяем данные по вертикали на два блока: нижние блоки соответствуют женщинам, а верхние (намного большие) - мужчинам. Сразу видно, что примерно четверть пассажиров составляли женщины, а остальные три четверти - мужчины.
Затем к верхнему краю применяется вторая переменная «Класс». Таким образом, четыре вертикальных столбца отмечают четыре значения этой переменной (1-е, 2-е, 3-е и экипаж). Эти столбцы имеют переменную толщину, поскольку ширина столбца указывает относительную долю соответствующего значения в генеральной совокупности. Экипаж явно представляет собой самую многочисленную группу мужчин, тогда как пассажиры третьего класса - самую большую группу женщин. Количество женщин-членов экипажа также было незначительным.
Наконец, применяется последняя переменная («Выжившие»), на этот раз по левому краю, результат выделен затемнением: темно-серые прямоугольники представляют людей, которые не пережили катастрофу, светло-серые - людей, которые пережили катастрофу. Сразу видно, что женщины из первого класса имеют самую высокую вероятность выживания. Вероятность выживания у женщин выше, чем у мужчин (маргинализированных по всем классам). Точно так же маргинализация по признаку пола определяет пассажиров первого класса как наиболее вероятных выживших. В целом выжило около 1/3 всех людей (доля светло-серых участков).
Свойства [ править ]
- Отображаемые переменные представляют собой категориальные или порядковые шкалы.
- Сюжет состоит как минимум из двух переменных. Верхнего предела нет, но слишком много переменных могут сбивать с толку в графической форме.
- Количество наблюдений не ограничено, но не читается на картинке.
- Поверхности прямоугольных полей, доступных для комбинации функций, пропорциональны количеству наблюдений, которые имеют эту комбинацию функций.
- В отличие, например, от прямоугольной диаграммы или графика QQ , на мозаичном графике невозможно построить доверительный интервал. Следовательно, значимость различных частот различных характеристических значений не может быть прослежена визуально.
См. Также [ править ]
Ссылки [ править ]
- ^ Sandra D. Schlotzhauer (1 апреля 2007). Элементарная статистика с использованием JMP . Институт САС. п. 407. ISBN. 978-1-59994-428-9.
- ^ Новые методы и технологии для статистики II: Материалы второго Боннского семинара . IOS Press. 1 января 1997 г. с. 254. ISBN 978-90-5199-326-4.
- ↑ Майкл Френдли (1 января 1991 г.). Система SAS для статистической графики . Институт САС. С. 512–. ISBN 978-1-55544-441-9.
- ^ Институт SAS (6 сентября 2013 г.). JMP 11 Базовый анализ . Институт САС. С. 251–. ISBN 978-1-61290-684-3.
- ^ Мартин Теус; Саймон Урбанек (23 марта 2011 г.). Интерактивная графика для анализа данных: принципы и примеры . CRC Press. ISBN 978-1-4200-1106-7.
Дальнейшее чтение [ править ]
- Джон Хартиган, Beat Kleiner: Мозаика для таблиц непредвиденных обстоятельств . В: Информатика и статистика: Материалы 13-го симпозиума по интерфейсу . 1981, С. 268–273.