В статистике и , в частности , в регрессионном анализе , дизайн матрица , известная также как модель матрицы или регрессора матрицы и часто обозначается X , является матрица значений объясняющих переменных из множества объектов. Каждая строка представляет отдельный объект, а следующие друг за другом столбцы соответствуют переменным и их конкретным значениям для этого объекта. Матрица плана используется в некоторых статистических моделях , например, в общей линейной модели . [1] [2] [3] Может содержать индикаторные переменные.(единицы и нули), которые указывают на принадлежность к группе в ANOVA , или могут содержать значения непрерывных переменных .
Матрица дизайна содержит данные о независимых переменных (также называемых объясняющими переменными) в статистических моделях, которые пытаются объяснить наблюдаемые данные о переменной отклика (часто называемой зависимой переменной ) в терминах независимых переменных. Теория, относящаяся к таким моделям, в значительной степени использует матричные манипуляции с использованием матрицы плана: см., Например, линейную регрессию . Примечательной особенностью концепции матрицы плана является то, что она способна представлять ряд различных экспериментальных планов и статистических моделей, например ANOVA , ANCOVA и линейную регрессию. [ необходима цитата ]
Определение [ править ]
Матрица проекта определяется как такая матрица , что ( j- й столбец i- й строки ) представляет значение j- й переменной, связанной с i- м объектом.
Таким образом, регрессионная модель, которая представляет собой линейную комбинацию независимых переменных, может быть представлена посредством умножения матриц как
где X - матрица плана, - вектор коэффициентов модели (по одному для каждой переменной), а y - вектор прогнозируемых выходных данных для каждого объекта.
Размер [ править ]
Матрица из данных имеет размерность п матрицы с размерностью р , где п есть число выборок , наблюдаемых, и р представляет собой число переменных ( характеристики ) , измеренных во всех образцах. [4] [5]
В этом представлении разные строки обычно представляют разные повторы эксперимента, а столбцы представляют разные типы данных (например, результаты определенных зондов). Например, предположим, что проводится эксперимент, в котором 10 человек вытаскивают с улицы и задают четыре вопроса. Матрица данных M будет матрицей 10 × 4 (что означает 10 строк и 4 столбца). Данные в строке i и столбце j этой матрицы будут ответом i- го человека на j- й вопрос.
Примеры [ править ]
Среднее арифметическое [ править ]
Матрица плана для среднего арифметического представляет собой вектор- столбец единиц .
Простая линейная регрессия [ править ]
В этом разделе приводится пример простой линейной регрессии - то есть регрессии только с одной независимой переменной - с семью наблюдениями. Семь точек данных: { y i , x i } для i = 1, 2,…, 7. Простая модель линейной регрессии
где - отрезок оси y, а - наклон линии регрессии. Эта модель может быть представлена в матричной форме как
где первый столбец единиц в матрице плана позволяет оценить перехват y, в то время как второй столбец содержит значения x, связанные с соответствующими значениями y .
Множественная регрессия [ править ]
В этом разделе содержится пример множественной регрессии с двумя ковариатами ( независимыми переменными): w и x . Снова предположим, что данные состоят из семи наблюдений, и что для каждого наблюдаемого значения, которое должно быть предсказано ( ), также наблюдаются значения w i и x i двух ковариат. Рассматриваемая модель
Эта модель может быть записана в матричных терминах как
Здесь матрица 7 × 3 с правой стороны - это матрица плана.
Односторонний дисперсионный анализ (ячейка означает модель) [ править ]
В этом разделе содержится пример одностороннего дисперсионного анализа ( ANOVA ) с тремя группами и семью наблюдениями. Данный набор данных содержит первые три наблюдения, принадлежащие к первой группе, следующие два наблюдения, принадлежащие ко второй группе, и последние два наблюдения, принадлежащие к третьей группе. Если модель, которую нужно подобрать, - это просто среднее значение каждой группы, то модель
что можно написать
В этой модели представлено среднее значение по- й группе.
Односторонний дисперсионный анализ (смещение от контрольной группы) [ править ]
Модель ANOVA может быть эквивалентно записана как каждый параметр группы, являющийся смещением от некоторой общей ссылки. Обычно за эту точку отсчета берется одна из рассматриваемых групп. Это имеет смысл в контексте сравнения нескольких групп лечения с контрольной группой, и контрольная группа считается «эталонной». В этом примере группа 1 была выбрана в качестве контрольной группы. Таким образом, подходящая модель
с нулевым ограничением .
В этой модели это среднее значение контрольной группы и разница между группой и контрольной группой. не включается в матрицу, потому что его отличие от контрольной группы (самой себя) обязательно равно нулю.
См. Также [ править ]
- Матрица данных
- Матрица моментов
- Матрица проекции
- Матрица Якоби и определитель
- Матрица разброса
- Матрица Грама
- Матрица Вандермонда
Ссылки [ править ]
- ^ Everitt, BS (2002). Кембриджский статистический словарь (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-81099-X.
- ^ Коробка, GEP ; Тяо, GC (1992) [1973]. Байесовский вывод в статистическом анализе . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-57428-7. (Раздел 8.1.1)
- ^ Тимм, Нил Х. (2007). Прикладной многомерный анализ . Springer Science & Business Media. п. 107.
- ^ Джонсон, Ричард А; Уичерн, Дин В. (2001). Прикладной многомерный статистический анализ . Пирсон. С. 111–112. ISBN 0131877151.
- ^ "Основные концепции многомерной статистики стр.2" (PDF) . Институт САС.
Дальнейшее чтение [ править ]
- Verbeek, Альберт (1984). «Геометрия выбора модели в регрессии». В Dijkstra, Тео К. (ред.). Анализ неправильной спецификации . Нью-Йорк: Спрингер. С. 20–36. ISBN 0-387-13893-5.