Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Время ожидания между извержениями и продолжительность извержения для гейзера Old Faithful Geyser в Йеллоустонском национальном парке , штат Вайоминг , США. Этот график предполагает, что обычно существует два типа извержений: кратковременные с коротким ожиданием и длительные с длительным ожиданием.
Трехмерный график рассеяния позволяет визуализировать многомерные данные. Этот график разброса принимает несколько скалярных переменных и использует их для разных осей в фазовом пространстве. Различные переменные объединяются для формирования координат в фазовом пространстве, и они отображаются с помощью глифов и окрашиваются с помощью другой скалярной переменной. [2]

График рассеяния (также называемое рассеиванием , разброс график , точечная диаграмма , Скатерограмма или диаграмма разброса ) [3] является типом сюжета или математической диаграммы , используя декартовы координаты для отображения значений обычно в течение двух переменных для набора данных. Если точки закодированы (цвет / форма / размер), может отображаться одна дополнительная переменная. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение на горизонтальной оси, и значение другой переменной, определяющей положение на вертикальной оси.. [4]

Обзор [ править ]

Диаграмма рассеяния может использоваться либо когда одна непрерывная переменная находится под контролем экспериментатора, а другая зависит от него, либо когда обе непрерывные переменные независимы. Если существует параметр, который систематически увеличивается и / или уменьшается другим, он называется управляющим параметром или независимой переменной и обычно наносится на горизонтальную ось. Измеряемая или зависимая переменная обычно откладывается по вертикальной оси. Если зависимой переменной не существует, любой тип переменной может быть нанесен на любую ось, а диаграмма рассеяния будет показывать только степень корреляции (не причинно-следственной связи ) между двумя переменными.

Диаграмма разброса может предложить различные виды корреляций между переменными с определенным доверительным интервалом . Например, вес и рост, вес будут по оси y, а высота по оси x. Корреляции могут быть положительными (рост), отрицательными (падение) или нулевыми (некоррелированными). Если рисунок точек наклоняется из нижнего левого угла в верхний правый, это указывает на положительную корреляцию между изучаемыми переменными. Если рисунок точек наклоняется из верхнего левого угла в нижний правый, это указывает на отрицательную корреляцию. Линия наилучшего соответствия(также называемая «линией тренда») может быть проведена для изучения взаимосвязи между переменными. Уравнение корреляции между переменными может быть определено с помощью установленных процедур наилучшего соответствия. Для линейной корреляции процедура наилучшего соответствия известна как линейная регрессия и гарантирует получение правильного решения за конечное время. Ни одна универсальная процедура наилучшего соответствия не может гарантировать правильное решение для произвольных отношений. Диаграмма рассеяния также очень полезна, когда мы хотим увидеть, как два сопоставимых набора данных согласуются, чтобы показать нелинейные отношения между переменными. Возможность сделать это можно улучшить, добавив плавную линию, такую ​​как LOESS . [5] Более того, если данные представлены смешанной моделью простых отношений, эти отношения будут визуально очевидны как наложенные шаблоны.

Диаграмма рассеяния является одним из семи основных инструментов по контролю качества . [6]

Точечные диаграммы могут быть построены в виде пузырьковых , маркерных и / или линейных диаграмм . [7]

Пример [ править ]

Например, чтобы отобразить связь между объемом легких человека и тем, как долго этот человек может задерживать дыхание, исследователь должен выбрать группу людей для изучения, затем измерить объем легких каждого человека (первая переменная) и как долго этот человек может задерживают дыхание (вторая переменная). Затем исследователь нанесет данные на диаграмму рассеяния, назначив «емкость легких» на горизонтальную ось и «время задержки дыхания» на вертикальную ось.

Человек с объемом легких 400 мл, задержавший дыхание на 21,7 секунды, будет представлен единственной точкой на диаграмме рассеяния в точке (400, 21,7) в декартовых координатах . Диаграмма рассеяния всех людей в исследовании позволит исследователю получить визуальное сравнение двух переменных в наборе данных и поможет определить, какие отношения могут быть между двумя переменными.

Матрицы точечной диаграммы [ править ]

Для набора переменных данных (измерений) X 1 , X 2 , ..., X k матрица точечной диаграммы показывает все попарные точечные диаграммы переменных в одном представлении с несколькими точечными диаграммами в матричном формате. Для k переменных матрица диаграммы рассеяния будет содержать k строк и k столбцов. График, расположенный на пересечении i-й строки и j-го столбца, представляет собой график зависимости переменных X i от X j . [8] Это означает, что каждая строка и столбец имеют одно измерение, а каждая ячейка представляет собой двухмерную диаграмму рассеяния.

Обобщенный график матрицы рассеяния [9] предлагает широкий выбор дисплеев парных комбинаций категориальных и количественных переменных. Для отображения двух категориальных переменных можно использовать мозаичный график , диаграмму колебаний или гистограмму с фасетами . Остальные графики используются для одной категориальной и одной количественной переменных.

Визуализация 3D-данных вместе с соответствующей матрицей диаграммы рассеяния

Пример диаграммы рассеяния [ править ]

Испытания Хоббса Пирсона

См. Также [ править ]

  • Коврик участок
  • гистограмма
  • линейный график

Ссылки [ править ]

  1. ^ Дружелюбный, Майкл; Денис, Дэн (2005). «Ранние истоки и развитие диаграммы рассеяния». Журнал истории поведенческих наук . 41 (2): 103–130. DOI : 10.1002 / jhbs.20078 . PMID  15812820 .
  2. ^ Визуализации, созданные с помощью VisIt на wci.llnl.gov. Последнее обновление: 8 ноября 2007 г.
  3. ^ Джаррелл, Стивен Б. (1994). Основная статистика (специальная предварительная публикация - ред.). Дубьюк, Айова: Умм. C. Brown Pub. п. 492. ISBN. 978-0-697-21595-6. Когда мы ищем взаимосвязь между двумя количественными переменными , часто помогает стандартный график доступных пар данных (X, Y), называемый диаграммой рассеяния ...
  4. ^ Уттс, Джессика М. Видя сквозь статистику 3-е издание, Томсон Брукс / Коул, 2005, стр. 166-167. ISBN 0-534-39402-7 
  5. ^ Кливленд, Уильям (1993). Визуализация данных . Мюррей Хилл, Нью-Джерси Саммит, Нью-Джерси: Лаборатории At & T Bell, опубликованные Hobart Press. ISBN 978-0963488404.
  6. ^ Нэнси Р. Тейг (2004). «Семь основных инструментов качества» . Набор инструментов качества . Милуоки, Висконсин : Американское общество качества . п. 15 . Проверено 5 февраля 2010 .
  7. ^ «Точечная диаграмма - Документация по диаграммам AnyChart JavaScript» . AnyChart . Дата обращения 3 февраля 2016 .
  8. ^ Матрица точечной диаграммы на itl.nist.gov.
  9. ^ Эмерсон, Джон В .; Грин, Уолтон А .; Шёрке, Баррет; Кроули, Джейсон (2013). «График обобщенных пар». Журнал вычислительной и графической статистики . 22 (1): 79–91. DOI : 10.1080 / 10618600.2012.694762 .

Внешние ссылки [ править ]

  • Что такое диаграмма рассеяния?
  • Матрица корреляционной диаграммы рассеяния для упорядоченных категориальных данных - Пояснение и R-код
  • Диаграмма рассеяния плотности для больших наборов данных (сотни миллионов точек)