Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике и , в частности , в регрессионном анализе , дизайн матрица , известная также как модель матрицы или регрессора матрицы и часто обозначается X , является матрица значений объясняющих переменных из множества объектов. Каждая строка представляет отдельный объект, а следующие друг за другом столбцы соответствуют переменным и их конкретным значениям для этого объекта. Матрица плана используется в некоторых статистических моделях , например, в общей линейной модели . [1] [2] [3] Может содержать индикаторные переменные.(единицы и нули), которые указывают на принадлежность к группе в ANOVA , или могут содержать значения непрерывных переменных .

Матрица дизайна содержит данные о независимых переменных (также называемых объясняющими переменными) в статистических моделях, которые пытаются объяснить наблюдаемые данные о переменной отклика (часто называемой зависимой переменной ) в терминах независимых переменных. Теория, относящаяся к таким моделям, в значительной степени использует матричные манипуляции с использованием матрицы плана: см., Например, линейную регрессию . Примечательной особенностью концепции матрицы плана является то, что она способна представлять ряд различных экспериментальных планов и статистических моделей, например ANOVA , ANCOVA и линейную регрессию. [ необходима цитата ]

Определение [ править ]

Матрица проекта определяется как такая матрица , что ( j- й столбец i- й строки ) представляет значение j- й переменной, связанной с i- м объектом.

Таким образом, регрессионная модель, которая представляет собой линейную комбинацию независимых переменных, может быть представлена ​​посредством умножения матриц как

где X - матрица плана, - вектор коэффициентов модели (по одному для каждой переменной), а y - вектор прогнозируемых выходных данных для каждого объекта.

Размер [ править ]

Матрица из данных имеет размерность п матрицы с размерностью р , где п есть число выборок , наблюдаемых, и р представляет собой число переменных ( характеристики ) , измеренных во всех образцах. [4] [5]

В этом представлении разные строки обычно представляют разные повторы эксперимента, а столбцы представляют разные типы данных (например, результаты определенных зондов). Например, предположим, что проводится эксперимент, в котором 10 человек вытаскивают с улицы и задают четыре вопроса. Матрица данных M будет матрицей 10 × 4 (что означает 10 строк и 4 столбца). Данные в строке i и столбце j этой матрицы будут ответом i- го человека на j- й вопрос.

Примеры [ править ]

Среднее арифметическое [ править ]

Матрица плана для среднего арифметического представляет собой вектор- столбец единиц .

Простая линейная регрессия [ править ]

В этом разделе приводится пример простой линейной регрессии - то есть регрессии только с одной независимой переменной - с семью наблюдениями. Семь точек данных: { y i , x i } для i  = 1, 2,…, 7. Простая модель линейной регрессии

где - отрезок оси y, а - наклон линии регрессии. Эта модель может быть представлена ​​в матричной форме как

где первый столбец единиц в матрице плана позволяет оценить перехват y, в то время как второй столбец содержит значения x, связанные с соответствующими значениями y .

Множественная регрессия [ править ]

В этом разделе содержится пример множественной регрессии с двумя ковариатами ( независимыми переменными): w и x . Снова предположим, что данные состоят из семи наблюдений, и что для каждого наблюдаемого значения, которое должно быть предсказано ( ), также наблюдаются значения w i и x i двух ковариат. Рассматриваемая модель

Эта модель может быть записана в матричных терминах как

Здесь матрица 7 × 3 с правой стороны - это матрица плана.

Односторонний дисперсионный анализ (ячейка означает модель) [ править ]

В этом разделе содержится пример одностороннего дисперсионного анализа ( ANOVA ) с тремя группами и семью наблюдениями. Данный набор данных содержит первые три наблюдения, принадлежащие к первой группе, следующие два наблюдения, принадлежащие ко второй группе, и последние два наблюдения, принадлежащие к третьей группе. Если модель, которую нужно подобрать, - это просто среднее значение каждой группы, то модель

что можно написать

В этой модели представлено среднее значение по- й группе.

Односторонний дисперсионный анализ (смещение от контрольной группы) [ править ]

Модель ANOVA может быть эквивалентно записана как каждый параметр группы, являющийся смещением от некоторой общей ссылки. Обычно за эту точку отсчета берется одна из рассматриваемых групп. Это имеет смысл в контексте сравнения нескольких групп лечения с контрольной группой, и контрольная группа считается «эталонной». В этом примере группа 1 была выбрана в качестве контрольной группы. Таким образом, подходящая модель

с нулевым ограничением .

В этой модели это среднее значение контрольной группы и разница между группой и контрольной группой. не включается в матрицу, потому что его отличие от контрольной группы (самой себя) обязательно равно нулю.

См. Также [ править ]

  • Матрица данных
  • Матрица моментов
  • Матрица проекции
  • Матрица Якоби и определитель
  • Матрица разброса
  • Матрица Грама
  • Матрица Вандермонда

Ссылки [ править ]

  1. ^ Everitt, BS (2002). Кембриджский статистический словарь (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 0-521-81099-X.
  2. ^ Коробка, GEP ; Тяо, GC (1992) [1973]. Байесовский вывод в статистическом анализе . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-57428-7. (Раздел 8.1.1)
  3. ^ Тимм, Нил Х. (2007). Прикладной многомерный анализ . Springer Science & Business Media. п. 107.
  4. ^ Джонсон, Ричард А; Уичерн, Дин В. (2001). Прикладной многомерный статистический анализ . Пирсон. С. 111–112. ISBN 0131877151.
  5. ^ "Основные концепции многомерной статистики стр.2" (PDF) . Институт САС.

Дальнейшее чтение [ править ]

  • Verbeek, Альберт (1984). «Геометрия выбора модели в регрессии». В Dijkstra, Тео К. (ред.). Анализ неправильной спецификации . Нью-Йорк: Спрингер. С. 20–36. ISBN 0-387-13893-5.