Сгруппированные данные являются данными , сформированного путем объединения отдельных наблюдений о наличии переменного на группы, так что распределение частот этих групп служит удобным средством обобщения и анализа данных. Существует два основных типа группировки: биннинг данных одномерной переменной, замена отдельных чисел счетчиками в бункерах; и группирование многомерных переменных по некоторым параметрам (особенно по независимым переменным ), получение распределения разгруппированных измерений (особенно зависимых переменных ).
Пример [ править ]
Идею сгруппированных данных можно проиллюстрировать, рассмотрев следующий набор исходных данных:
20 | 25 | 24 | 33 | 13 | 26 | 8 | 19 | 31 год | 11 | 16 | 21 год | 17 | 11 | 34 | 14 | 15 | 21 год | 18 | 17 |
Приведенные выше данные могут быть сгруппированы для построения частотного распределения любым из нескольких способов. Один из методов - использовать интервалы в качестве основы.
Наименьшее значение в приведенных выше данных - 8, а наибольшее - 34. Интервал от 8 до 34 разбит на более мелкие подинтервалы (называемые интервалами классов ). Для каждого интервала класса подсчитывается количество элементов данных, попадающих в этот интервал. Это число называется частотой интервала между занятиями. Результаты представлены в виде таблицы частот следующим образом:
Затраченное время (в секундах) | Частота |
---|---|
5 ≤ т <10 | 1 |
10 ≤ т <15 | 4 |
15 ≤ т <20 | 6 |
20 ≤ т <25 | 4 |
25 ≤ т <30 | 2 |
30 ≤ т <35 | 3 |
Другой метод группировки данных - использование некоторых качественных характеристик вместо числовых интервалов. Например, предположим, что в приведенном выше примере есть три типа учащихся: 1) ниже нормы, если время ответа составляет от 5 до 14 секунд, 2) нормально, если оно составляет от 15 до 24 секунд, и 3) выше нормы, если оно составляет 25 секунд или более, то сгруппированные данные выглядят так:
Частота | |
---|---|
Ниже нормы | 5 |
Нормальный | 10 |
Выше нормального | 5 |
Еще одним примером группировки данных является использование некоторых обычно используемых числовых значений, которые фактически являются «именами», которые мы присваиваем категориям. Например, давайте посмотрим на возрастное распределение учеников в классе. Студентам может быть 10, 11 или 12 лет. Это возрастные группы: 10, 11 и 12. Обратите внимание, что возраст учащихся в возрастной группе 10 составляет от 10 лет и 0 дней до 10 лет и 364 дней, а их средний возраст составляет 10,5 лет, если мы посмотрим на возраст. в непрерывном масштабе. Сгруппированные данные выглядят так:
Возраст | Частота |
---|---|
10 | 10 |
11 | 20 |
12 | 10 |
Среднее значение сгруппированных данных [ править ]
Оценка, , в среднем населения , из которого данные нарисованы могут быть вычислены из сгруппированных данных , как:
В этой формуле x относится к средней точке интервалов классов, а f - частота классов. Обратите внимание, что результат этого будет отличаться от выборочного среднего несгруппированных данных. Среднее значение для сгруппированных данных в приведенном выше примере можно рассчитать следующим образом:
Интервалы занятий | Частота ( f ) | Средняя точка ( x ) | FX |
---|---|---|---|
5 и выше, ниже 10 | 1 | 7,5 | 7,5 |
10 ≤ т <15 | 4 | 12,5 | 50 |
15 ≤ т <20 | 6 | 17,5 | 105 |
20 ≤ т <25 | 4 | 22,5 | 90 |
25 ≤ т <30 | 2 | 27,5 | 55 |
30 ≤ т <35 | 3 | 32,5 | 97,5 |
ОБЩИЙ | 20 | 405 |
Таким образом, среднее значение сгруппированных данных равно
Среднее значение для сгруппированных данных в примере 4 выше можно рассчитать следующим образом:
Возрастная группа | Частота ( f ) | Средняя точка ( x ) | FX |
---|---|---|---|
10 | 10 | 10,5 | 105 |
11 | 20 | 11,5 | 230 |
12 | 10 | 12,5 | 125 |
ОБЩИЙ | 40 | 460 |
Таким образом, среднее значение сгруппированных данных равно
См. Также [ править ]
- Сводные данные
- Биннинг данных
- Перегородка набора
- Уровень измерения
- Распределение частоты
- Дискретность непрерывных функций
- Логистическая регрессия § Оценка минимального хи-квадрат для сгруппированных данных
Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . ( Июнь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
Примечания [ править ]
umeshnikita123 />
Ссылки [ править ]
- Newbold, P .; Карлсон, В .; Торн, Б. (2009). Статистика для бизнеса и экономики (седьмое изд.). Pearson Education. ISBN 978-0-13-507248-6.