Гистограмма является приближенным представлением распределения числовых данных. Впервые он был представлен Карлом Пирсоном . [1] Для построения гистограммы, первый шаг должен « бен » (или « ведро ») диапазон значений, то есть, разбить весь диапазон значений в серии интервалов, а затем подсчитать , сколько значений попадают в каждый интервал. Бины обычно задаются как последовательные неперекрывающиеся интервалы переменной. Бины (интервалы) должны быть смежными и часто (но не обязательно) одинакового размера. [2]
Гистограмма | |
---|---|
Один из семи основных инструментов качества | |
Впервые описано | Карл Пирсон |
Цель | Для грубой оценки распределения вероятностей данной переменной, отображая частоты наблюдений, происходящих в определенных диапазонах значений. |
Если ячейки имеют одинаковый размер, над ячейкой возводится прямоугольник с высотой, пропорциональной частоте - количеству наблюдений в каждой ячейке. Гистограмма также может быть нормализована для отображения «относительных» частот. Затем он показывает долю случаев, которые попадают в каждую из нескольких категорий , с суммой высот, равной 1.
Однако бункеры не обязательно должны быть одинаковой ширины; в этом случае возведенный прямоугольник определяется так, чтобы его площадь была пропорциональна частоте случаев в бункере. [3] Тогда по вертикальной оси отложена не частота, а плотность частоты - количество наблюдений на единицу переменной на горизонтальной оси. Примеры переменной ширины ячеек показаны ниже в данных бюро переписи.
Поскольку соседние интервалы не оставляют промежутков, прямоугольники гистограммы касаются друг друга, чтобы указать, что исходная переменная является непрерывной. [4]
Гистограммы дают приблизительное представление о плотности основного распределения данных, и часто для оценки плотности : оценки функции плотности вероятности основной переменной. Общая площадь гистограммы, используемой для плотности вероятности, всегда нормализуется к 1. Если длина интервалов на оси x равна 1, то гистограмма идентична графику относительной частоты .
Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро для сглаживания частот по ячейкам. Это дает более гладкую функцию плотности вероятности, которая в целом будет более точно отражать распределение базовой переменной. Оценка плотности может быть построена в качестве альтернативы гистограмме и обычно отображается в виде кривой, а не набора прямоугольников. Тем не менее гистограммы предпочтительны в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как это просто для гистограммы, где каждый интервал изменяется независимо.
Альтернативой оценке плотности ядра является гистограмма со смещением среднего значения [5], которая быстро вычисляется и дает оценку плотности сглаженной кривой без использования ядер.
Гистограмма - один из семи основных инструментов контроля качества . [6]
Гистограммы иногда путают с гистограммами. Гистограмма используется для непрерывных данных , где ячейки представляют собой диапазоны данных, а гистограмма представляет собой график категориальных переменных . Некоторые авторы рекомендуют, чтобы между прямоугольниками гистограммы были промежутки, чтобы прояснить различие. [7] [8]
Примеры
Это данные для гистограммы справа, состоящей из 500 элементов:
Бункер / интервал | Количество / частота |
---|---|
От −3,5 до −2,51 | 9 |
От −2,5 до −1,51 | 32 |
От −1,5 до −0,51 | 109 |
От -0,5 до 0,49 | 180 |
От 0,5 до 1,49 | 132 |
От 1,5 до 2,49 | 34 |
От 2,5 до 3,49 | 4 |
Для описания паттернов на гистограмме используются следующие слова: «симметричный», «наклон влево» или «вправо», «одномодальный», «бимодальный» или «мультимодальный».
Симметричный, одномодальный
Бимодальный
Мультимодальный
Симметричный
Чтобы узнать о них больше, рекомендуется построить график данных с использованием нескольких интервалов разной ширины. Вот пример чаевых, даваемых в ресторане.
Подсказки с использованием ячейки шириной 1 доллар США, наклоненной вправо, одномодальный
Подсказки, использующие ширину бункера 10 центов, все еще смещены вправо, мультимодальные с режимами на сумму $ и 50 центов, указывают на округление, а также некоторые выбросы
Бюро переписи населения США обнаружили , что там было 124 миллионов людей , которые работают за пределами своих домов. [9] Используя их данные о времени, затраченном на поездки на работу, в таблице ниже показано абсолютное количество людей, которые ответили, что время в пути «от 30 до 35 минут» больше, чем цифры для категорий выше и ниже. Это. Вероятно, это связано с тем, что люди округляют указанное время в пути. [ необходима цитата ] Проблема представления значений как несколько произвольно округленных чисел - обычное явление при сборе данных от людей. [ необходима цитата ]
Данные в абсолютных числах Интервал Ширина Количество Количество / ширина 0 5 4180 836 5 5 13687 2737 10 5 18618 3723 15 5 19634 3926 20 5 17981 3596 25 5 7190 1438 30 5 16369 3273 35 год 5 3212 642 40 5 4122 824 45 15 9200 613 60 30 6461 215 90 60 3435 57
Эта гистограмма показывает количество наблюдений на единицу интервала как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Этот тип гистограммы показывает абсолютные числа с Q в тысячах.
Данные по пропорциям Интервал Ширина Количество (Q) Q / всего / ширина 0 5 4180 0,0067 5 5 13687 0,0221 10 5 18618 0,0300 15 5 19634 0,0316 20 5 17981 0,0290 25 5 7190 0,0116 30 5 16369 0,0264 35 год 5 3212 0,0052 40 5 4122 0,0066 45 15 9200 0,0049 60 30 6461 0,0017 90 60 3435 0,0005
Эта гистограмма отличается от первой только вертикальным масштабом. Площадь каждого блока - это доля от общей суммы, которую представляет каждая категория, а общая площадь всех полосок равна 1 (дробь означает «все»). Отображаемая кривая представляет собой простую оценку плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.
Другими словами, гистограмма представляет распределение частот посредством прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого из них является средней плотностью частот для интервала. Интервалы помещены вместе, чтобы показать, что данные, представленные гистограммой, хоть и являются исключительными, но также являются смежными. (Например, на гистограмме можно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представлены как пустые и не пропущенные.) [10 ]
Математическое определение
В более общем математическом смысле гистограмма - это функция m i, которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как интервалы ), тогда как график гистограммы - это просто один из способов представления гистограммы. Таким образом, если мы позволим n быть общим количеством наблюдений, а k - общим количеством интервалов, гистограмма m i будет удовлетворять следующим условиям:
Накопительная гистограмма
Кумулятивная гистограмма - это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах до указанного интервала. То есть совокупная гистограмма M i гистограммы m j определяется как:
Количество бункеров и ширина
Не существует «наилучшего» количества ячеек, и разные размеры ячеек могут выявить разные особенности данных. Группировка данных по крайней мере так же стара, как работа Граунта в 17 веке, но никаких систематических указаний не давалось [11] до работы Стерджеса в 1926 году [12].
Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; использование более узких интервалов с высокой плотностью (поэтому сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины бина в гистограмме может быть полезным. Тем не менее, бункеры одинаковой ширины широко используются.
Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают строгие предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа может потребоваться разная ширина бина, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила. [13]
Количество бункеров k может быть назначено напрямую или может быть рассчитано исходя из предложенной ширины бункера h как:
Подтяжки указывают на функцию потолка .
Выбор квадратного корня
который извлекает квадратный корень из числа точек данных в выборке (используется гистограммами Excel и многими другими) и округляется до следующего целого числа . [14]
Формула Стерджеса
Формула Стерджеса [12] выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.
Он неявно основывает размеры ячеек на диапазоне данных и может плохо работать, если n <30, потому что количество ячеек будет небольшим - менее семи - и вряд ли будет хорошо отображать тенденции в данных. Он также может работать плохо, если данные не распределяются нормально.
Правило Райса
Правило Райса [15] представлено как простая альтернатива правилу Стерджеса.
Формула Доана
Формула Доана [16] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее производительность с использованием нестандартных данных.
где - оценочная асимметрия распределения по 3-м моментам, а
Нормальное эталонное правило Скотта
где стандартное отклонение выборки . Нормальное эталонное правило Скотта [17] оптимально для случайных выборок нормально распределенных данных в том смысле, что оно минимизирует интегрированную среднеквадратичную ошибку оценки плотности. [11]
Выбор Фридмана – Диакониса
Правило Фридмана-Diaconis является: [18] [11]
который основан на межквартильном диапазоне , обозначаемом IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение к выбросам в данных.
Минимизация расчетной квадратичной ошибки перекрестной проверки
Этот подход минимизации интегрированной среднеквадратичной ошибки из правила Скотта может быть обобщен за пределы нормальных распределений с помощью перекрестной проверки с исключением одного: [19] [20]
Здесь, - количество точек данных в k- м бине, и выбор значения h, которое минимизирует J , минимизирует интегрированную среднеквадратичную ошибку.
Выбор Симадзаки и Шиномото
Выбор основан на минимизации оценочной функции риска L 2 [21]
где а также - средняя и смещенная дисперсия гистограммы с шириной интервала , а также .
Переменная ширина бункера
Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых приложений предпочтительнее изменять ширину бункера. Это позволяет избежать мусорных баков с низким счетчиком. Распространенным случаем является выбор равновероятных интервалов , когда ожидается, что количество выборок в каждом интервале будет примерно одинаковым. Ячейки могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных так, чтобы каждая ячейка имелаобразцы. При построении гистограммы в качестве зависимой оси используется частотная плотность . Хотя все интервалы имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.
Для равновероятных интервалов предлагается следующее правило количества интервалов: [22]
Этот выбор интервалов мотивирован максимизацией мощности критерия хи-квадрат Пирсона, проверяющего, действительно ли интервалы содержат одинаковое количество выборок. Более конкретно, для данного доверительного интерваларекомендуется выбрать от 1/2 до 1 раза следующее уравнение: [23]
Где - пробит- функция. Следуя этому правилу для дал бы между а также ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.
Замечание
Хорошая причина, по которой количество ящиков должно быть пропорционально следующее: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», как истремится к бесконечности. Если - это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), тогда количество единиц в ячейке (частота) порядка а относительная стандартная ошибка порядка. По сравнению со следующим интервалом относительное изменение частоты порядкапри условии, что производная плотности отлична от нуля. Эти двое имеют одинаковый порядок, если в порядке , чтобы в порядке . Этот простой выбор кубического корня также может применяться к ячейкам с непостоянной шириной.
Приложения
- В гидрологии гистограмма и оценочная функция плотности данных об осадках и речном расходе, проанализированные с распределением вероятностей , используются для понимания их поведения и частоты появления. [25] Пример показан на синем рисунке.
- Во многих программах обработки цифровых изображений есть инструмент гистограммы, который показывает распределение контрастности / яркости пикселей .
Смотрите также
- Биннинг данных
- Оценка плотности
- Оценка плотности ядра , более плавный, но более сложный метод оценки плотности
- Оценка энтропии
- Правило Вольноотпущенника-Диакониса
- Гистограмма изображения
- Диаграмма Парето
- Семь основных инструментов качества
- V-оптимальные гистограммы
Рекомендации
- ^ Пирсон, К. (1895). "Вклад в математическую теорию эволюции. II. Косые вариации в однородном материале" . Философские труды Королевского общества A: математические, физические и инженерные науки . 186 : 343–414. Bibcode : 1895RSPTA.186..343P . DOI : 10,1098 / rsta.1895.0010 .
- ^ Howitt, D .; Крамер, Д. (2008). Введение в статистику в психологии (четвертое изд.). Прентис Холл. ISBN 978-0-13-205161-3.
- ^ Freedman, D .; Pisani, R .; Первес, Р. (1998). Статистика (Третье изд.). WW Нортон. ISBN 978-0-393-97083-8.
- ^ Чарльз Стангор (2011) «Методы исследования поведенческих наук». Уодсворт, Cengage Learning. ISBN 9780840031976 .
- ^ Дэвид В. Скотт (декабрь 2009 г.). «Усредненная гистограмма со смещением» . Междисциплинарные обзоры Wiley: вычислительная статистика . 2: 2 (2): 160–164. DOI : 10.1002 / wics.54 .
- ^ Нэнси Р. Тейг (2004). «Семь основных инструментов качества» . Инструменты качества . Милуоки, Висконсин : качество американского общества . п. 15 . Проверено 5 февраля 2010 .
- ^ Наоми, Роббинс. «Гистограмма НЕ является столбчатой диаграммой» . Forbes . Проверено 31 июля 2018 года .
- ^ М. Эйлин Магнелло (декабрь 2006 г.). «Карл Пирсон и истоки современной статистики: эластик становится статистиком» . Новозеландский журнал истории и философии науки и техники . 1 том. OCLC 682200824 .
- ^ Перепись США 2000 года .
- ^ Декан, S., & Illowsky, B. (2009, 19 февраля). Описательная статистика: гистограмма. Получено с веб-сайта Connexions: http://cnx.org/content/m16298/1.11/
- ^ а б в Скотт, Дэвид В. (1992). Многомерная оценка плотности: теория, практика и визуализация . Нью-Йорк: Джон Вили.
- ^ а б Стерджес, HA (1926). «Выбор классного интервала». Журнал Американской статистической ассоциации . 21 (153): 65–66. DOI : 10.1080 / 01621459.1926.10502161 . JSTOR 2965501 .
- ^ например, § 5.6 «Оценка плотности», В. Н. Венейблс и Б. Д. Рипли, Современная прикладная статистика с S (2002), Springer, 4-е издание. ISBN 0-387-95457-0 .
- ^ «Одномерный EXCEL: гистограмма» .
- ^ Интернет-статистическое образование: мультимедийный курс обучения ( http://onlinestatbook.com/ ). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)
- ^ Доан Д.П. (1976) Эстетическая частотная классификация. Американский статистик, 30: 181–183.
- ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. DOI : 10.1093 / Biomet / 66.3.605 .
- ^ Фридман, Дэвид; Диаконис, П. (1981). «О гистограмме как оценщике плотности: теория L 2 » (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . DOI : 10.1007 / BF01025868 . S2CID 14437088 .
- ^ Вассерман, Ларри (2004). Вся статистика . Нью-Йорк: Спрингер. п. 310. ISBN 978-1-4419-2322-6.
- ^ Стоун, Чарльз Дж. (1984). «Асимптотически оптимальное правило выбора гистограммы» (PDF) . Материалы конференции в Беркли в честь Ежи Неймана и Джека Кифера .
- ^ Shimazaki, H .; Шиномото, С. (2007). «Метод выбора размера ячейки временной гистограммы». Нейронные вычисления . 19 (6): 1503–1527. CiteSeerX 10.1.1.304.6404 . DOI : 10.1162 / neco.2007.19.6.1503 . PMID 17444758 . S2CID 7781236 .
- ^ Джек Принс; Дон МакКормак; Ди Михельсон; Карен Хоррелл. «Тест согласия по критерию хи-квадрат» . Электронный справочник статистических методов NIST / SEMATECH . NIST / SEMATECH. п. 7.2.1.1 . Проверено 29 марта 2019 .
- ^ Мур, Дэвид (1986). «3». В Д'Агостино, Ральф; Стивенс, Майкл (ред.). Методы согласия . Нью-Йорк, Нью-Йорк, США: Marcel Dekker Inc., стр. 70. ISBN 0-8247-7487-6.
- ^ Калькулятор для распределения вероятностей и функций плотности
- ^ Иллюстрация гистограмм и функций плотности вероятности
дальнейшее чтение
- Ланкастер, Х.О. Введение в медицинскую статистику. Джон Уайли и сыновья. 1974 г. ISBN 0-471-51250-8
Внешние ссылки
- Изучение гистограмм , эссе Арана Лунцера и Амелии Макнамара
- Поездка на работу и место работы (местонахождение документа переписи указано в примере)
- Гладкая гистограмма для сигналов и изображений из нескольких образцов
- Гистограммы: построение, анализ и понимание с внешними ссылками и приложением к физике частиц.
- Метод выбора размера ячейки гистограммы
- Гистограммы: теория и практика , отличные иллюстрации некоторых понятий ширины бункера, выведенных выше.
- Гистограммы в правильном направлении
- Генератор интерактивных гистограмм
- Функция Matlab для построения хороших гистограмм
- Динамическая гистограмма в MS Excel
- Построение гистограммы и управление ею с помощью Java-апплетов и диаграмм в SOCR
- Набор инструментов для построения лучших гистограмм