В статистике и , в частности , в регрессионном анализе , дизайн матрица , известная также как модель матрицы или регрессора матрицы и часто обозначается X , является матрица значений объясняющих переменных из множества объектов. Каждая строка представляет отдельный объект, а следующие друг за другом столбцы соответствуют переменным и их конкретным значениям для этого объекта. Матрица плана используется в некоторых статистических моделях , например, в общей линейной модели . [1] [2] [3] Может содержать индикаторные переменные.(единицы и нули), которые указывают на принадлежность к группе в ANOVA , или могут содержать значения непрерывных переменных .
Матрица дизайна содержит данные о независимых переменных (также называемых объясняющими переменными) в статистических моделях, которые пытаются объяснить наблюдаемые данные о переменной отклика (часто называемой зависимой переменной ) в терминах независимых переменных. Теория, относящаяся к таким моделям, существенно использует матричные манипуляции, связанные с матрицей плана: см., Например, линейную регрессию . Примечательной особенностью концепции матрицы плана является то, что она способна представлять ряд различных экспериментальных планов и статистических моделей, например ANOVA , ANCOVA и линейную регрессию. [ необходима цитата ]
Определение
Матрица проекта определяется как матрица такой, что ( j- й столбец i- й строки) представляет значение j- й переменной, связанной с i- м объектом.
Таким образом, регрессионная модель, которая представляет собой линейную комбинацию независимых переменных, может быть представлена посредством умножения матриц как
где X - матрица плана,- вектор коэффициентов модели (по одному для каждой переменной), а y - вектор прогнозируемых выходов для каждого объекта.
Размер
Матрица из данных имеет размерность п матрицы с размерностью р , где п есть число выборок , наблюдаемых, и р представляет собой число переменных ( характеристики ) , измеренных во всех образцах. [4] [5]
В этом представлении разные строки обычно представляют разные повторы эксперимента, а столбцы представляют разные типы данных (например, результаты определенных зондов). Например, предположим, что проводится эксперимент, в котором 10 человек вытаскивают с улицы и задают четыре вопроса. Матрица данных M будет матрицей 10 × 4 (что означает 10 строк и 4 столбца). Данные в строке i и столбце j этой матрицы будут ответом i- го человека на j- й вопрос.
Примеры
Среднее арифметическое
Матрица плана для среднего арифметического представляет собой вектор- столбец единиц .
Простая линейная регрессия
В этом разделе приводится пример простой линейной регрессии - то есть регрессии только с одной независимой переменной - с семью наблюдениями. Семь точек данных: { y i , x i } для i = 1, 2,…, 7. Простая модель линейной регрессии
где является у -intercept и- наклон линии регрессии. Эта модель может быть представлена в матричной форме как
где первый столбец единиц в матрице плана позволяет оценить перехват y, в то время как второй столбец содержит значения x, связанные с соответствующими значениями y .
Множественная регрессия
В этом разделе содержится пример множественной регрессии с двумя ковариатами ( независимыми переменными): w и x . Снова предположим, что данные состоят из семи наблюдений, и что для каждого наблюдаемого значения необходимо спрогнозировать () также наблюдаются значения w i и x i двух ковариат. Рассматриваемая модель
Эта модель может быть записана в матричных терминах как
Здесь матрица 7 × 3 с правой стороны - это матрица плана.
Односторонний дисперсионный анализ (модель ячейки средних)
В этом разделе содержится пример одностороннего дисперсионного анализа ( ANOVA ) с тремя группами и семью наблюдениями. Данный набор данных содержит первые три наблюдения, принадлежащие к первой группе, следующие два наблюдения, принадлежащие ко второй группе, и последние два наблюдения, принадлежащие к третьей группе. Если модель, которую нужно подобрать, - это просто среднее значение каждой группы, то модель
что можно написать
В этой модели представляет собой среднее значение -я группа.
Односторонний дисперсионный анализ (смещение от контрольной группы)
Модель ANOVA может быть эквивалентно записана как каждый параметр группы. это смещение от некоторой общей ссылки. Обычно за эту точку отсчета берется одна из рассматриваемых групп. Это имеет смысл в контексте сравнения нескольких групп лечения с контрольной группой, и контрольная группа считается «эталонной». В этом примере группа 1 была выбрана в качестве контрольной группы. Таким образом, подходящая модель
с ограничением, что равно нулю.
В этой модели среднее значение контрольной группы и отличие от группы в референтную группу. не включается в матрицу, потому что его отличие от контрольной группы (самой себя) обязательно равно нулю.
Смотрите также
Рекомендации
- ^ Everitt, BS (2002). Кембриджский статистический словарь (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-81099-X.
- ^ Коробка, ГЭП ; Тяо, GC (1992) [1973]. Байесовский вывод в статистическом анализе . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-57428-7. (Раздел 8.1.1)
- ^ Тимм, Нил Х. (2007). Прикладной многомерный анализ . Springer Science & Business Media. п. 107.
- ^ Джонсон, Ричард А; Уичерн, Дин В. (2001). Прикладной многомерный статистический анализ . Пирсон. С. 111–112. ISBN 0131877151.
- ^ «Основные концепции многомерной статистики стр.2» (PDF) . Институт САС.
дальнейшее чтение
- Verbeek, Альберт (1984). «Геометрия выбора модели в регрессии». В Dijkstra, Тео К. (ред.). Анализ неправильной спецификации . Нью-Йорк: Спрингер. С. 20–36. ISBN 0-387-13893-5.