Дисперсионный анализ - одновременный компонентный анализ ( ASCA или ANOVA – SCA ) - это метод, который разбивает вариации и позволяет интерпретировать эти разбиения с помощью SCA, метода, аналогичного анализу основных компонентов (PCA) . Этот метод является многомерным или даже многомерным расширением дисперсионного анализа (ANOVA) . Вариационное разбиение аналогично ANOVA. Каждый раздел соответствует всем вариациям, вызванным эффектом или фактором., обычно режим лечения или экспериментальные условия. Рассчитанные распределения эффекта называются оценками эффекта. Поскольку даже оценки эффекта являются многомерными, интерпретация этих оценок эффектов не является интуитивно понятной. Применяя SCA к оценкам эффекта, можно получить простой интерпретируемый результат. [1] [2] [3] В случае нескольких эффектов этот метод оценивает эффекты таким образом, чтобы различные эффекты не коррелировали.
Подробности
Многие области исследований видят все большее количество переменных лишь в нескольких выборках . Низкое отношение выборки к переменной создает проблемы, известные как мультиколлинеарность и сингулярность . Из-за этого нельзя применять большинство традиционных методов многомерной статистики.
Алгоритм ASCA
В этом разделе подробно описано, как рассчитать модель ASCA для случая двух основных эффектов с одним эффектом взаимодействия. Заявленное обоснование легко расширить на большее количество основных эффектов и больше эффектов взаимодействия. Если первый эффект - это время, а второй - дозировка, существует только взаимодействие между временем и дозировкой. Мы предполагаем, что существует четыре временных точки и три уровня дозировки.
Пусть X будет матрицей , содержащей данные. X центрирован по среднему, поэтому столбцы с нулевым средним . Пусть A и B обозначают основные эффекты, а AB - взаимодействие этих эффектов. Двумя основными эффектами в биологическом эксперименте могут быть время (A) и pH (B), и эти два эффекта могут взаимодействовать. При разработке таких экспериментов можно управлять основными эффектами на нескольких (как минимум, двух) уровнях. Различные уровни эффекта могут быть обозначены как A1, A2, A3 и A4, что соответствует 2, 3, 4, 5 часам от начала эксперимента. То же самое справедливо и для эффекта B, например, pH 6, pH 7 и pH 8 могут считаться уровнями воздействия.
A и B должны быть сбалансированы, если оценки эффекта должны быть ортогональными, а разделение - уникальным. Матрица E содержит информацию, которая не связана с каким-либо эффектом. Разбиение дает следующие обозначения:
Расчет оценки основного эффекта A (или B)
Найдите все строки, которые соответствуют уровню 1 эффекта A, и усредните эти строки. Результат - вектор . Повторите это для других уровней эффекта. Создайте новую матрицу того же размера X и поместите вычисленные средние в соответствующие строки. То есть присвойте всем строкам, которые соответствуют эффекту (т. Е.) A уровень 1, среднее значение эффекта A уровня 1. После завершения оценок уровня для эффекта выполните SCA. Баллы этого SCA представляют собой выборочные отклонения для эффекта, важные переменные этого эффекта находятся в весах вектора нагрузки SCA.
Расчет оценки эффекта взаимодействия AB
Оценка эффекта взаимодействия аналогична оценке основных эффектов. Разница в том, что для оценок взаимодействия строки, соответствующие эффекту A уровня 1, комбинируются с эффектом B уровня 1, и все комбинации эффектов и уровней циклически перебираются. В нашем примере настройки с четырьмя временными точками и тремя уровнями дозировки есть 12 наборов взаимодействий {A1-B1, A1B2, A2B1, A2B2 и т. Д.}. Перед оценкой эффекта взаимодействия важно сдуть (удалить) основные эффекты.
SCA на разделах A, B и AB
Одновременный компонентный анализ математически идентичен PCA, но семантически отличается тем, что моделирует разные объекты или субъекты одновременно. Стандартные обозначения для моделей SCA и PCA:
где X - данные, T - оценки компонентов, а P - нагрузки компонентов. E - матрица невязок или ошибок . Поскольку ASCA моделирует вариационные разделы с помощью SCA, модель для оценок эффекта выглядит следующим образом:
Обратите внимание, что у каждого раздела есть своя собственная матрица ошибок. Однако алгебра диктует, что в сбалансированном наборе данных с центрированием среднего значения каждая двухуровневая система имеет ранг 1. Это приводит к нулю ошибок, поскольку любая матрица ранга 1 может быть записана как произведение оценки одного компонента и вектора нагрузки.
Полная модель ASCA с двумя эффектами и взаимодействием, включая SCA, выглядит так:
Разложение:
Время как эффект
Поскольку «время» рассматривается как качественный фактор в разложении ANOVA, предшествующем ASCA, можно смоделировать нелинейную многомерную траекторию времени. Пример этого показан на рисунке 10 этого справочного материала. [4]
Рекомендации
- ^ Смилд, возраст К .; Jansen, Jeroen J .; Hoefsloot, Huub CJ; Ламерс, Роберт-Ян А.Н.; ван дер Греф, Ян; Тиммерман, Марике Э. (2005) "ANOVA-одновременный компонентный анализ (ASCA): новый инструмент для анализа разработанных данных метаболомики", Bioinformatics , 21 (13), 3043-3048. DOI : 10,1093 / биоинформатики / bti476
- ^ Янсен, JJ; Hoefsloot, HCJ; van der Greef, J .; Тиммерман, Мэн; Westerhuis, JA; Smilde, AK (2005) «ASCA: анализ многомерных данных, полученных в результате экспериментального дизайна». Журнал хемометрики , 19: 469–481. DOI : 10.1002 / cem.952
- ^ Daniel J Vis, Johan A Westerhuis, Age K Smilde: Jan van der Greef (2007) «Статистическая проверка многомерных эффектов в ASCA», BMC Bioinformatics, 8: 322 doi : 10.1186 / 1471-2105-8-322
- ^ Smilde, AK, Hoefsloot, HC и Westerhuis, JA (2008), "Геометрия АОДБ". Journal of Chemometrics , 22, 464–471. DOI : 10.1002 / cem.1175