Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Частичная регрессия наименьших квадратов ( регрессия PLS ) - это статистический метод, который имеет некоторое отношение к регрессии главных компонентов ; вместо того, чтобы находить гиперплоскости максимальной дисперсии между ответом и независимыми переменными, он находит модель линейной регрессии , проецируя предсказанные переменные и наблюдаемые переменные в новое пространство. Поскольку данные X и Y проецируются в новые пространства, семейство методов PLS известно как билинейные факторные модели. Дискриминантный анализ методом частичных наименьших квадратов (PLS-DA) - это вариант, используемый, когда Y является категориальным.

PLS используется для нахождения фундаментальных отношений между двумя матрицами ( X и Y ), то есть скрытого переменного подхода к моделированию ковариационных структур в этих двух пространствах. Модель PLS попытается найти многомерное направление в пространстве X, которое объясняет направление максимальной многомерной дисперсии в пространстве Y. Регрессия PLS особенно подходит, когда матрица предикторов имеет больше переменных, чем наблюдений, и когда существует мультиколлинеарность между значениями X. Напротив, стандартная регрессия в этих случаях потерпит неудачу (если она не регуляризована ).

Метод наименьших квадратов был введен шведским статистиком Германом О.А. Волдом , который затем разработал его вместе со своим сыном Сванте Волдом. Альтернативный термин для PLS (и более правильный согласно Svante Wold [1] ) - это проекция на скрытые структуры , но термин частичные наименьшие квадраты все еще доминирует во многих областях. Хотя первоначальные приложения были в социальных науках, регрессия PLS сегодня наиболее широко используется в хемометрике и смежных областях. Он также используется в биоинформатике , сенсометрии , нейробиологии и антропологии .

Базовая модель [ править ]

Общая базовая модель многомерного PLS такова:

где X - матрица предикторов, Y - матрица ответов; T и U - матрицы, которые представляют собой, соответственно, проекции X ( оценка X , матрица компонентов или факторов ) и проекции Y ( оценки Y ); P и Q представляют собой, соответственно, и ортогональные матрицы нагрузки ; и матрицы E и Fявляются членами ошибки, которые считаются независимыми и одинаково распределенными случайными нормальными величинами. В разбиения X и Y сделаны таким образом , чтобы максимизировать ковариации между Т и U .

Алгоритмы [ править ]

Ряд вариантов PLS существуют для оценки коэффициента нагрузки и матрицы T, U, P и Q . Большинство из них строят оценки линейной регрессии между X и Y как . Некоторые алгоритмы PLS подходят только для случая , когда Y представляет собой вектор - столбец, в то время как другие решения в общем случае матрицы Y . Алгоритмы также различаются по тому, оценивают ли они фактор-матрицу T как ортогональную, ортонормированную матрицу или нет. [2] [3] [4] [5] [6] [7] Окончательный прогноз будет одинаковым для всех этих разновидностей PLS, но компоненты будут отличаться.

PLS1 [ править ]

PLS1 - широко используемый алгоритм, подходящий для случая вектора Y. Он оценивает T как ортонормированную матрицу. В псевдокоде это выражается ниже (заглавные буквы - это матрицы, строчные буквы - это векторы, если они с надстрочными индексами, и скаляры, если они с индексами):

1 функция PLS1 ( X, y, l ) 2 3 , начальная оценка w . 4 для  до   5 6 (заметим , что это скаляр) 7 8 9 (обратите внимание , что это скаляр)
10 , если
11 , разорвать цикл
12 , если
13
14
15 конца для
16 определяют Вт , чтобы матрица с колоннами .  Сделайте то же самое, чтобы сформировать матрицу P и вектор q .    17
18
19 возврат 

Эта форма алгоритма не требует центрирования входных X и Y , так как это выполняется алгоритмом неявно. Этот алгоритм объекты «дефляция» матрицы X (вычитание ), но дефлятирование вектора у не выполняются, так как не нужно (это может быть доказано , что сдувания у дает те же результаты, не сдувание [8] ). Пользовательская переменная l - это ограничение на количество скрытых факторов в регрессии; если он равен рангу матрицы X , алгоритм даст оценки регрессии наименьших квадратов для B и

Расширения [ править ]

В 2002 году был опубликован новый метод, названный ортогональными проекциями скрытых структур (OPLS). В OPLS непрерывные переменные данные разделяются на прогнозирующую и некоррелированную информацию. Это приводит к улучшенной диагностике, а также к более легко интерпретируемой визуализации. Однако эти изменения только улучшают интерпретируемость, но не предсказуемость моделей PLS. [9] L-PLS расширяет регрессию PLS до 3 связанных блоков данных. [10] Аналогичным образом, OPLS-DA (Дискриминантный анализ) может применяться при работе с дискретными переменными, например, в исследованиях классификации и биомаркеров.

В 2015 году метод частичных наименьших квадратов был связан с процедурой, называемой трехпроходным регрессионным фильтром (3PRF). [11] Предположим, что количество наблюдений и переменных велико, 3PRF (и, следовательно, PLS) асимптотически нормален для «лучшего» прогноза, подразумеваемого линейной моделью латентных факторов. В данных о фондовых рынках было показано, что PLS обеспечивает точные прогнозы доходности и роста денежных потоков вне выборки. [12]

Версия PLS, основанная на разложении по сингулярным значениям (SVD), обеспечивает реализацию с эффективным использованием памяти, которую можно использовать для решения проблем большой размерности, таких как связывание миллионов генетических маркеров с тысячами функций визуализации в визуализации генетики на аппаратном обеспечении потребительского уровня. [13]

PLS-корреляция (PLSC) - еще одна методология, связанная с регрессией PLS [14], которая использовалась в нейровизуализации [14] [15] [16], а в последнее время и в спортивной науке [17] для количественной оценки силы взаимосвязи между данными. наборы. Как правило, PLSC делит данные на два блока (подгруппы), каждый из которых содержит одну или несколько переменных, а затем использует декомпозицию по сингулярным значениям (SVD) для определения силы любой связи (т. Е. Объема совместно используемой информации), которая может существовать между две компонентные подгруппы. [18] Это достигается с помощью SVD для определения инерции (т. Е. Суммы сингулярных значений) ковариационной матрицы рассматриваемых подгрупп.[18] [14]

См. Также [ править ]

  • Каноническая корреляция
  • Сбор данных
  • Регрессия Деминга
  • Извлечение признаков
  • Машинное обучение
  • Мультилинейное подпространственное обучение
  • Моделирование пути методом частичных наименьших квадратов
  • Анализ главных компонентов
  • Регрессивный анализ
  • Общая сумма квадратов

Дальнейшее чтение [ править ]

  • Крамер, Р. (1998). Хемометрические методы количественного анализа . Марсель-Деккер. ISBN 978-0-8247-0198-7.
  • Франк, Ильдико Э .; Фридман, Джером Х. (1993). «Статистический взгляд на некоторые инструменты регрессии хемометрики». Технометрика . 35 (2): 109–148. DOI : 10.1080 / 00401706.1993.10485033 .
  • Haenlein, Майкл; Каплан, Андреас М. (2004). «Руководство для начинающих по анализу методом частичных наименьших квадратов». Понимание статистики . 3 (4): 283–297. DOI : 10,1207 / s15328031us0304_4 .
  • Хенселер, Йорг; Фассотт, Георг (2005). «Тестирование смягчающих эффектов в моделях пути PLS. Иллюстрация доступных процедур». Cite journal requires |journal= (help)
  • Лингьерде, Оле-Кристиан; Кристоферсен, Нильс (2000). «Структура усадки частичных наименьших квадратов». Скандинавский статистический журнал . 27 (3): 459–473. DOI : 10.1111 / 1467-9469.00201 .
  • Тененхаус, Мишель (1998). La Régression PLS: Теория и практика. Париж: Technip .
  • Росипал, Роман; Крамер, Николь (2006). «Обзор и последние достижения в области частичных наименьших квадратов, методов подпространства, скрытой структуры и выбора признаков»: 34–51. Cite journal requires |journal= (help)
  • Хелланд, Инге С. (1990). «Регрессионные и статистические модели PLS». Скандинавский статистический журнал . 17 (2): 97–114. JSTOR  4616159 .
  • Уолд, Герман (1966). «Оценка главных компонентов и связанных моделей методом наименьших квадратов». В Кришнайа, PR (ред.). Многомерный анализ . Нью-Йорк: Academic Press. С. 391–420.
  • Уолд, Герман (1981). Подход фиксированной точки к взаимозависимым системам . Амстердам: Северная Голландия.
  • Уолд, Герман (1985). «Частичные наименьшие квадраты». В Коце, Самуэль; Джонсон, Норман Л. (ред.). Энциклопедия статистических наук . 6 . Нью-Йорк: Вили. С. 581–591.
  • Волд, Сванте; Рухе, Аксель; Уолд, Герман; Данн, WJ (1984). «Проблема коллинеарности в линейной регрессии. Метод частных наименьших квадратов (PLS) для обобщенных обратных». Журнал SIAM по научным и статистическим вычислениям . 5 (3): 735–743. DOI : 10,1137 / 0905052 .
  • Гартвейт, Пол Х. (1994). «Интерпретация частичных наименьших квадратов». Журнал Американской статистической ассоциации . 89 (425): 122–7. DOI : 10.1080 / 01621459.1994.10476452 . JSTOR  2291207 .
  • Ван, Х., изд. (2010). Справочник по неполным наименьшим квадратам . ISBN 978-3-540-32825-4.
  • Stone, M .; Брукс, Р.Дж. (1990). «Континуальная регрессия: перекрестно подтвержденное предсказание с последовательным построением, охватывающее обыкновенные наименьшие квадраты, частичные наименьшие квадраты и регрессию главных компонентов». Журнал Королевского статистического общества, Series B . 52 (2): 237–269. JSTOR  2345437 .

Ссылки [ править ]

  1. ^ Уолд, S; Sjöström, M .; Эрикссон, Л. (2001). «PLS-регрессия: основной инструмент хемометрики». Хемометрика и интеллектуальные лабораторные системы . 58 (2): 109–130. DOI : 10.1016 / S0169-7439 (01) 00155-1 .
  2. ^ Линдгрен, F; Гелади, П; Уолд, S (1993). «Алгоритм ядра для PLS». J. Chemometrics . 7 : 45–59. DOI : 10.1002 / cem.1180070104 .
  3. ^ де Йонг, S .; тер Браак, CJF (1994). «Комментарии к алгоритму ядра PLS». J. Chemometrics . 8 (2): 169–174. DOI : 10.1002 / cem.1180080208 .
  4. ^ Дайал, BS; МакГрегор, Дж. Ф. (1997). «Улучшенные алгоритмы PLS». J. Chemometrics . 11 (1): 73–85. DOI : 10.1002 / (SICI) 1099-128X (199701) 11: 1 <73 :: AID-CEM435> 3.0.CO; 2- # .
  5. ^ де Йонг, С. (1993). «SIMPLS: альтернативный подход к частичной регрессии наименьших квадратов». Хемометрика и интеллектуальные лабораторные системы . 18 (3): 251–263. DOI : 10.1016 / 0169-7439 (93) 85002-X .
  6. ^ Rannar, S .; Lindgren, F .; Geladi, P .; Уолд, С. (1994). «Алгоритм ядра PLS для наборов данных с большим количеством переменных и меньшим количеством объектов. Часть 1: Теория и алгоритм». J. Chemometrics . 8 (2): 111–125. DOI : 10.1002 / cem.1180080204 .
  7. ^ Абди, Х. (2010). «Частичная регрессия наименьших квадратов и проекция на регрессию скрытой структуры (PLS-регрессия)». Междисциплинарные обзоры Wiley: вычислительная статистика . 2 : 97–106. DOI : 10.1002 / wics.51 .
  8. ^ Höskuldsson, Agnar (1988). «Методы регрессии PLS». Журнал хемометрики . 2 (3): 219. DOI : 10.1002 / cem.1180020306 .
  9. ^ Trygg, J; Уолд, S (2002). «Ортогональные проекции на скрытые структуры». Журнал хемометрики . 16 (3): 119–128. DOI : 10.1002 / cem.695 .
  10. ^ Sæbøa, S .; Almøya, T .; Flatbergb, A .; Aastveita, AH; Мартенс, Х. (2008). «LPLS-регрессия: метод прогнозирования и классификации под влиянием исходной информации о переменных-предикторах». Хемометрика и интеллектуальные лабораторные системы . 91 (2): 121–132. DOI : 10.1016 / j.chemolab.2007.10.006 .
  11. ^ Келли, Брайан; Прюитт, Сет (2015-06-01). «Трехпроходный фильтр регрессии: новый подход к прогнозированию с использованием множества предикторов». Журнал эконометрики . Проблемы большой размерности в эконометрике. 186 (2): 294–316. DOI : 10.1016 / j.jeconom.2015.02.011 .
  12. ^ Келли, Брайан; Прюитт, Сет (01.10.2013). «Ожидания рынка в разрезе текущих значений». Журнал финансов . 68 (5): 1721–1756. CiteSeerX 10.1.1.498.5973 . DOI : 10.1111 / jofi.12060 . ISSN 1540-6261 .  
  13. ^ Лоренци, Марко; Альтманн, Андре; Гутман, Борис; Рэй, Селина; Арбер, Чарльз; Hibar, Derrek P .; Джаханшад, Неда; Schott, Jonathan M .; Александр, Дэниел С. (20.03.2018). «Восприимчивость атрофии головного мозга к TRIB3 при болезни Альцгеймера, данные о функциональной приоритезации при визуализации генетики» . Труды Национальной академии наук . 115 (12): 3162–3167. DOI : 10.1073 / pnas.1706100115 . ISSN 0027-8424 . PMC 5866534 . PMID 29511103 .   
  14. ^ a b c Кришнан, Анджали; Уильямс, Линн Дж .; Макинтош, Энтони Рэндал; Абди, Эрве (май 2011 г.). «Методы частичного наименьших квадратов (PLS) для нейровизуализации: учебник и обзор». NeuroImage . 56 (2): 455–475. DOI : 10.1016 / j.neuroimage.2010.07.034 .
  15. ^ Макинтош, Энтони Р .; Мишич, Братислав (03.01.2013). «Многомерный статистический анализ данных нейровизуализации». Ежегодный обзор психологии . 64 (1): 499–525. DOI : 10.1146 / annurev-psycho-113011-143804 . ISSN 0066-4308 . 
  16. ^ Беггс, Клайв Б.; Маньяно, Кристофер; Белов, Павел; Кравецки, Жаклин; Ramasamy, Deepa P .; Хагемайер, Джеспер; Зивадинов, Роберт (2016-05-02). де Кастро, Фернандо (ред.). «Площадь поперечного сечения внутренней яремной вены и пульсация спинномозговой жидкости в акведуке Сильвия: сравнительное исследование здоровых субъектов и пациентов с рассеянным склерозом» . PLOS ONE . 11 (5): e0153960. DOI : 10.1371 / journal.pone.0153960 . ISSN 1932-6203 . PMC 4852898 . PMID 27135831 .   
  17. ^ Ткачество, Дэн; Джонс, Бен; Иретон, Мэтт; Уайтхед, Сара; Тилль, Кевин; Беггс, Клайв Б. (14 февраля 2019 г.). Коннабой, Крис (ред.). «Преодоление проблемы мультиколлинеарности данных о спортивных результатах: новое приложение частичного корреляционного анализа методом наименьших квадратов» . PLOS ONE . 14 (2): e0211776. DOI : 10.1371 / journal.pone.0211776 . ISSN 1932-6203 . PMC 6375576 .  
  18. ^ а б Абди, Эрве; Уильямс, Линн Дж. (2013), Райсфельд, Брэд; Mayeno, Артур Н. (ред.), "Частичные наименьших квадратов Методы: Частичное наименьших квадратов Корреляция и частичная регрессия наименьших квадратов", Вычислительная токсикологии , Humana Press, 930 ., Стр 549-579, DOI : 10.1007 / 978-1-62703 -059-5_23 , ISBN 9781627030588

Внешние ссылки [ править ]

  • Краткое введение в регрессию PLS и ее историю