Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Гистограмма является приближенным представлением распределения числовых данных. Впервые его представил Карл Пирсон . [1] Для построения гистограммы, первый шаг должен « бен » (или « ведро ») диапазон значений, то есть, разбить весь диапазон значений в серии интервалов, а затем подсчитать , сколько значений попадают в каждый интервал. Бины обычно задаются как последовательные неперекрывающиеся интервалы переменной. Бины (интервалы) должны быть смежными и часто (но не обязательно) равного размера. [2]

Если ячейки имеют одинаковый размер, над ячейкой возводится прямоугольник с высотой, пропорциональной частоте - количеству наблюдений в каждой ячейке. Гистограмма также может быть нормализована для отображения «относительных» частот. Затем он показывает долю случаев, которые попадают в каждую из нескольких категорий , с суммой высот, равной 1.

Однако бункеры не обязательно должны быть одинаковой ширины; в этом случае возведенный прямоугольник определяется так, чтобы его площадь была пропорциональна частоте случаев в бункере. [3] Тогда по вертикальной оси отложена не частота, а плотность частоты - количество наблюдений на единицу переменной на горизонтальной оси. Примеры переменной ширины бункера показаны ниже в данных бюро переписи.

Поскольку соседние интервалы не оставляют промежутков, прямоугольники гистограммы касаются друг друга, чтобы указать, что исходная переменная является непрерывной. [4]

Гистограммы дают приблизительное представление о плотности основного распределения данных, и часто для оценки плотности : оценки функции плотности вероятности основной переменной. Общая площадь гистограммы, используемой для плотности вероятности, всегда нормализована к 1. Если длина интервалов на оси x равна 1, то гистограмма идентична графику относительной частоты .

Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро для сглаживания частот по ячейкам. Это дает более гладкую функцию плотности вероятности, которая в целом будет более точно отражать распределение базовой переменной. Оценка плотности может быть нанесена на график в качестве альтернативы гистограмме и обычно отображается в виде кривой, а не набора прямоугольников. Тем не менее гистограммы предпочтительны в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как это просто для гистограммы, где каждый интервал изменяется независимо.

Альтернативой оценке плотности ядра является гистограмма со смещением среднего значения [5], которая быстро вычисляется и дает оценку плотности сглаженной кривой без использования ядер.

Гистограмма - один из семи основных инструментов контроля качества . [6]

Гистограммы иногда путают с гистограммами. Гистограмма используется для непрерывных данных , где ячейки представляют диапазоны данных, а гистограмма представляет собой график категориальных переменных. Некоторые авторы рекомендуют, чтобы на гистограммах были промежутки между прямоугольниками, чтобы прояснить различие. [7] [8]

Примеры [ править ]

Это данные для гистограммы справа, используя 500 элементов:

Для описания паттернов гистограммы используются следующие слова: «симметричный», «наклон влево» или «вправо», «одномодальный», «бимодальный» или «мультимодальный».

  • Симметричный, одномодальный

  • Перекошено вправо

  • Наклон влево

  • Бимодальный

  • Мультимодальный

  • Симметричный

Чтобы узнать о них больше, рекомендуется построить график данных с использованием нескольких интервалов разной ширины. Вот пример чаевых, даваемых в ресторане.

  • Подсказки с использованием ячейки шириной 1 доллар США, наклоненной вправо, одномодальный

  • Подсказки, использующие ширину бункера 10 центов, все еще смещены вправо, мультимодальные с режимами на сумму $ и 50 центов, указывают на округление, а также некоторые выбросы

Бюро переписи населения США обнаружили , что там было 124 миллионов людей , которые работают за пределами своих домов. [9] Используя их данные о времени, затраченном на поездки на работу, в таблице ниже показано абсолютное количество людей, которые ответили, что время в пути «не менее 30, но менее 35 минут» выше, чем цифры для категорий выше и ниже Это. Вероятно, это связано с тем, что люди округляют указанное время в пути. [ необходима цитата ] Проблема представления значений как несколько произвольно округленных чисел - обычное явление при сборе данных от людей. [ необходима цитата ]

Гистограмма времени в пути (на работу), перепись США 2000 года. Площадь под кривой равна общему количеству случаев. На этой диаграмме используется значение Q / ширина из таблицы.

Эта гистограмма показывает количество наблюдений на единицу интервала как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Гистограмма этого типа показывает абсолютные числа с Q в тысячах.

Гистограмма времени в пути (на работу), перепись США 2000 года. Площадь под кривой равна 1. На этой диаграмме используются значения Q / total / width из таблицы.

Эта гистограмма отличается от первой только вертикальным масштабом. Площадь каждого блока - это доля от общей суммы, которую представляет каждая категория, а общая площадь всех полосок равна 1 (дробь означает «все»). Отображаемая кривая представляет собой простую оценку плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.

Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого - это средняя плотность частот для интервала. Интервалы помещены вместе, чтобы показать, что данные, представленные гистограммой, хоть и являются исключительными, но также являются смежными. (Например, на гистограмме можно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представлены как пустые и не пропущенные.) [10 ]

Математическое определение [ править ]

Обычная и совокупная гистограммы одних и тех же данных. Показанные данные представляют собой случайную выборку из 10000 точек нормального распределения со средним значением 0 и стандартным отклонением 1.

В более общем математическом смысле гистограмма - это функция m i, которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как ячейки ), тогда как график гистограммы - это просто один из способов представления гистограммы. Таким образом, если мы позволим n быть общим количеством наблюдений, а k - общим количеством интервалов, гистограмма m i удовлетворяет следующим условиям:

Кумулятивная гистограмма [ править ]

Кумулятивная гистограмма - это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах вплоть до указанного интервала. То есть совокупная гистограмма M i гистограммы m j определяется как:

Количество ящиков и ширина [ править ]

Не существует «наилучшего» количества ячеек, и разные размеры ячеек могут выявить разные особенности данных. Группировка данных по крайней мере так же стара, как работа Граунта в 17 веке, но никаких систематических указаний не было [11] до работы Стерджеса в 1926 году. [12]

Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; Использование более узких интервалов с высокой плотностью (так что сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины бина в гистограмме может быть полезным. Тем не менее, бункеры одинаковой ширины широко используются.

Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают строгие предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа может потребоваться разная ширина бина, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила. [13]

Количество бункеров k можно назначить напрямую или рассчитать исходя из предложенной ширины бункера  h как:

Раскосы обозначают функцию потолка .

Выбор квадратного корня [ править ]

который извлекает квадратный корень из числа точек данных в выборке (используется гистограммами Excel и многими другими) и округляется до следующего целого числа . [14]


Формула Стерджеса [ править ]

Формула Стерджеса [12] выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.

Он неявно основывает размеры ячеек на диапазоне данных и может плохо работать, если  n  <30, потому что количество ячеек будет небольшим - менее семи - и вряд ли будет хорошо отображать тенденции в данных. Он также может работать плохо, если данные не распределяются нормально.

Правило Райса [ править ]

Правило Райса [15] представлено как простая альтернатива правилу Стерджеса.

Формула Доана [ править ]

Формула Доана [16] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее производительность с использованием нестандартных данных.

где - оценочная асимметрия распределения по 3-м моментам, а

Нормальное эталонное правило Скотта [ править ]

где - стандартное отклонение выборки . Нормальное эталонное правило Скотта [17] оптимально для случайных выборок нормально распределенных данных в том смысле, что оно минимизирует интегрированную среднеквадратичную ошибку оценки плотности. [11]

Выбор Вольноотпущенника-Диакониса [ править ]

Правило Фридмана-Diaconis является: [18] [11]

который основан на межквартильном диапазоне , обозначаемом IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение к выбросам в данных.

Минимизация расчетной квадратичной ошибки перекрестной проверки [ править ]

Этот подход минимизации интегрированной среднеквадратичной ошибки из правила Скотта может быть обобщен за пределы нормальных распределений с помощью перекрестной проверки с исключением одного: [19] [20]

Здесь - количество точек данных в k- м бине, и выбор значения h, которое минимизирует J , минимизирует интегрированную среднеквадратичную ошибку.

Выбор Симадзаки и Шиномото [ править ]

Выбор основан на минимизации оценочной функции риска L 2 [21]

где и - средняя и смещенная дисперсия гистограммы с шириной интервала , и .

Переменная ширина бункера [ править ]

Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых приложений предпочтительнее изменять ширину бункера. Это позволяет избежать мусорных баков с низким счетчиком. Распространенным случаем является выбор равновероятных интервалов , где ожидается, что количество выборок в каждом интервале будет примерно одинаковым. Бины могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных так, чтобы в каждом бине были выборки. При построении гистограммы в качестве зависимой оси используется частотная плотность . Хотя все интервалы имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.

Для равновероятных интервалов предлагается следующее правило количества интервалов: [22]

Этот выбор интервалов мотивирован максимизацией мощности критерия хи-квадрат Пирсона, проверяющего, действительно ли интервалы содержат одинаковое количество образцов. Более конкретно, для данного доверительного интервала рекомендуется выбрать от 1/2 до 1 раза следующее уравнение: [23]

Где это пробит функция. Следуя этому правилу, for даст между и ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.

Замечание [ править ]

Хорошая причина, по которой количество бинов должно быть пропорционально, заключается в следующем: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», как и стремящаяся к бесконечности. Если это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), то количество единиц в интервале (частота) является порядковым, а относительная стандартная ошибка порядка . По сравнению со следующим интервалом относительное изменение частоты имеет порядок при условии, что производная плотности не равна нулю. Эти двое одного порядка, если они в порядке , так что это порядок. Этот простой выбор кубического корня также можно применить к ячейкам с непостоянной шириной.

Гистограмма и функция плотности для распределения Гамбеля [24]

Приложения [ править ]

  • В гидрологии гистограмма и оценочная функция плотности данных об осадках и речном расходе, проанализированные с помощью распределения вероятностей , используются для понимания их поведения и частоты появления. [25] Пример показан на синем рисунке.
  • Во многих программах обработки цифровых изображений есть инструмент гистограммы, который показывает распределение контрастности / яркости пикселей .
    гистограмма контраста

См. Также [ править ]

  • Биннинг данных
  • Оценка плотности
    • Оценка плотности ядра , более плавный, но более сложный метод оценки плотности
  • Оценка энтропии
  • Правило Фридмана-Диакониса
  • Гистограмма изображения
  • Диаграмма Парето
  • Семь основных инструментов качества
  • V-оптимальные гистограммы

Ссылки [ править ]

  1. ^ Пирсон, К. (1895). "Вклад в математическую теорию эволюции. II. Косые вариации в однородном материале" . Философские труды Королевского общества A: математические, физические и инженерные науки . 186 : 343–414. Bibcode : 1895RSPTA.186..343P . DOI : 10,1098 / rsta.1895.0010 .
  2. ^ Howitt, D .; Крамер, Д. (2008). Введение в статистику в психологии (Четвертое изд.). Прентис Холл. ISBN 978-0-13-205161-3.
  3. ^ Freedman, D .; Pisani, R .; Первес, Р. (1998). Статистика (Третье изд.). WW Нортон. ISBN 978-0-393-97083-8.
  4. ^ Чарльз Стангор (2011) «Методы исследования поведенческих наук». Уодсворт, Cengage Learning. ISBN 9780840031976 . 
  5. ^ Дэвид В. Скотт (декабрь 2009 г.). «Усредненная гистограмма со смещением» . Междисциплинарные обзоры Wiley: вычислительная статистика . 2: 2 (2): 160–164. DOI : 10.1002 / wics.54 .
  6. ^ Нэнси Р. Тейг (2004). «Семь основных инструментов качества» . Набор инструментов качества . Милуоки, Висконсин : качество американского общества . п. 15 . Проверено 5 февраля 2010 .
  7. ^ Наоми, Роббинс. «Гистограмма НЕ является столбчатой ​​диаграммой» . Forbes . Проверено 31 июля 2018 года .
  8. ^ М. Эйлин Магнелло (декабрь 2006 г.). «Карл Пирсон и истоки современной статистики: эластик становится статистиком» . Новозеландский журнал истории и философии науки и техники . 1 том. OCLC 682200824 . 
  9. ^ США 2000 переписи .
  10. ^ Декан, S., & Illowsky, B. (2009, 19 февраля). Описательная статистика: гистограмма. Получено с веб-сайта Connexions: http://cnx.org/content/m16298/1.11/
  11. ^ a b c Скотт, Дэвид В. (1992). Многомерная оценка плотности: теория, практика и визуализация . Нью-Йорк: Джон Вили.
  12. ^ a b Стерджес, HA (1926). «Выбор класса». Журнал Американской статистической ассоциации . 21 (153): 65–66. DOI : 10.1080 / 01621459.1926.10502161 . JSTOR 2965501 . 
  13. ^ например, § 5.6 «Оценка плотности», Венейблс В.Н. и Рипли Б.Д., Современная прикладная статистика с S (2002), Springer, 4-е издание. ISBN 0-387-95457-0 . 
  14. ^ «EXCEL Одномерный: гистограмма» .
  15. ^ Интернет-статистическое образование: мультимедийный курс обучения ( http://onlinestatbook.com/ ). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)
  16. ^ Доан Д.П. (1976) Эстетическая частотная классификация. Американский статистик, 30: 181–183.
  17. ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. DOI : 10.1093 / Biomet / 66.3.605 .
  18. ^ Фридман, Дэвид; Диаконис, П. (1981). «О гистограмме как оценщике плотности: теория L 2 » (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . DOI : 10.1007 / BF01025868 . S2CID 14437088 .   
  19. ^ Вассерман, Ларри (2004). Вся статистика . Нью-Йорк: Спрингер. п. 310. ISBN 978-1-4419-2322-6.
  20. ^ Стоун, Чарльз Дж. (1984). «Асимптотически оптимальное правило выбора гистограммы» (PDF) . Материалы конференции в Беркли в честь Ежи Неймана и Джека Кифера .
  21. ^ Shimazaki, H .; Шиномото, С. (2007). «Метод выбора размера ячейки временной гистограммы». Нейронные вычисления . 19 (6): 1503–1527. CiteSeerX 10.1.1.304.6404 . DOI : 10.1162 / neco.2007.19.6.1503 . PMID 17444758 . S2CID 7781236 .   
  22. Джек Принс; Дон МакКормак; Ди Михельсон; Карен Хоррелл. «Тест согласия по критерию хи-квадрат» . Электронный справочник статистических методов NIST / SEMATECH . NIST / SEMATECH. п. 7.2.1.1 . Проверено 29 марта 2019 .
  23. ^ Мур, Дэвид (1986). «3». В Д'Агостино, Ральф; Стивенс, Майкл (ред.). Методы согласия . Нью-Йорк, Нью-Йорк, США: Marcel Dekker Inc., стр. 70. ISBN 0-8247-7487-6.
  24. ^ Калькулятор для распределения вероятностей и функций плотности
  25. ^ Иллюстрация гистограмм и функций плотности вероятности

Дальнейшее чтение [ править ]

  • Ланкастер, ХО Введение в медицинскую статистику. Джон Уайли и сыновья. 1974. ISBN 0-471-51250-8. 

Внешние ссылки [ править ]

  • Изучение гистограмм , эссе Арана Лунцера и Амелии Макнамара
  • Поездка на работу и место работы (местонахождение документа переписи указано в примере)
  • Гладкая гистограмма для сигналов и изображений из нескольких образцов
  • Гистограммы: построение, анализ и понимание с внешними ссылками и приложением к физике частиц.
  • Метод выбора размера ячейки гистограммы
  • Гистограммы: теория и практика , отличные иллюстрации некоторых концепций ширины бункера, выведенных выше.
  • Гистограммы в правильном направлении
  • Генератор интерактивных гистограмм
  • Функция Matlab для построения хороших гистограмм
  • Динамическая гистограмма в MS Excel
  • Построение гистограммы и управление ею с помощью апплетов Java и диаграмм на SOCR
  • Набор инструментов для построения лучших гистограмм