График рассеяния

Диаграмма рассеяния (также называемая диаграммой рассеяния , диаграммой рассеяния , диаграммой рассеяния , диаграммой рассеяния или диаграммой рассеяния ) ^[3] — это тип графика или математической диаграммы , использующей декартовы координаты для отображения значений обычно двух переменных для набора данных. Если точки закодированы (цвет/форма/размер), может отображаться одна дополнительная переменная. Данные отображаются в виде набора точек, каждая из которых имеет значение одной переменной, определяющей положение на горизонтальной оси, и значение другой переменной, определяющей положение на вертикальной оси . ^[4]

Диаграмму рассеяния можно использовать либо в том случае, когда одна непрерывная переменная находится под контролем экспериментатора, а другая зависит от нее, либо когда обе непрерывные переменные независимы. Если существует параметр , который систематически увеличивается и/или уменьшается за счет другого, он называется параметром управления или независимой переменной и обычно отображается по горизонтальной оси. Измеряемая или зависимая переменная обычно отображается вдоль вертикальной оси. Если зависимой переменной не существует, любой тип переменной может быть нанесен на любую ось, а диаграмма рассеяния будет иллюстрировать только степень корреляции ( не причинно-следственную связь ) между двумя переменными.

Диаграмма рассеяния может указывать на различные виды корреляций между переменными с определенным доверительным интервалом . Например, вес и рост будут находиться на оси $Y$ , а рост — на оси $X.$ Корреляции могут быть положительными (растущими), отрицательными (падающими) или нулевыми (некоррелированными). Если рисунок точек имеет наклон от нижнего левого угла к верхнему правому, это указывает на положительную корреляцию между изучаемыми переменными. Если рисунок точек имеет наклон от верхнего левого угла к нижнему правому, это указывает на отрицательную корреляцию. Линия наилучшего соответствия (также называемая «линией тренда») может быть проведена для изучения взаимосвязи между переменными. Уравнение корреляции между переменными можно определить с помощью установленных процедур наилучшего соответствия. Для линейной корреляции наиболее подходящая процедура известна как линейная регрессия и гарантированно генерирует правильное решение за конечное время. Никакая универсальная процедура наилучшего соответствия не может гарантировать правильное решение для произвольных отношений. Диаграмма рассеяния также очень полезна, когда мы хотим увидеть, как два сопоставимых набора данных согласуются, чтобы показать нелинейные отношения между переменными. Возможность сделать это можно улучшить, добавив плавную линию, например LOESS . ^[5] Более того, если данные представлены в виде смешанной модели простых отношений, эти отношения будут визуально очевидны как наложенные шаблоны.

Например, чтобы продемонстрировать связь между емкостью легких человека и тем, как долго этот человек может задерживать дыхание, исследователь должен выбрать группу людей для изучения, затем измерить емкость легких каждого из них (первая переменная) и то, как долго этот человек сможет задерживать дыхание. задержать дыхание (вторая переменная). Затем исследователь наносил данные на диаграмму рассеяния, откладывая «объем легких» по горизонтальной оси и «время задержки дыхания» по вертикальной оси.

Человек с объемом легких400 кл , которые затаили дыхание21,7 с будут представлены одной точкой на диаграмме рассеяния в точке (400, 21,7) в декартовых координатах . Диаграмма рассеяния всех людей, участвовавших в исследовании, позволит исследователю получить визуальное сравнение двух переменных в наборе данных и поможет определить, какого рода взаимосвязь может существовать между двумя переменными.