Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Двухуровневый график спектральной карты набора данных радужной оболочки глаза Андерсона
Дискриминантный анализ biplot из Фишера данных радужной оболочки глаза (Гринакр, 2010)

Биплоты - это тип исследовательского графа, используемый в статистике , обобщение простого графика рассеяния с двумя переменными . Двухуровневый график позволяет графически отображать информацию как о выборках, так и о переменных матрицы данных . Образцы отображаются в виде точек, а переменные отображаются в виде векторов, линейных осей или нелинейных траекторий. В случае категориальных переменных точки уровня категории могут использоваться для представления уровней категориальной переменной. Обобщен biplot отображает информацию о непрерывных и категориальных переменных.

Введение и история [ править ]

Биплот был представлен К. Рубеном Габриэлем (1971). [1] Гауэр и Хэнд (1996) написали монографию о биплотах. Ян и Канг (2003) описали различные методы, которые можно использовать для визуализации и интерпретации двумерного графика. Книга Greenacre (2010) [2] представляет собой практическое ориентированное на пользователя руководство по биплотам, наряду со скриптами на языке программирования R с открытым исходным кодом , для создания биплотов, связанных с анализом главных компонентов (PCA), многомерным масштабированием (MDS), логарифмический анализ (LRA) - также известный как спектральное отображение [3] [4] - дискриминантный анализ (DA) и различные формы анализа соответствий: простой анализ соответствий (CA), анализ множественных соответствий (MCA) и анализ канонических соответствий (CCA) (Greenacre 2016 [5] ). Книга Гауэра, Люббе и Ле Ру (2011) направлена ​​на популяризацию биплотов как полезного и надежного метода визуализации многомерных данных, когда исследователи хотят рассмотреть, например, анализ главных компонентов (PCA), анализ канонических переменных (CVA). или различные виды анализа соответствий.

Строительство [ править ]

Двухуровневый график строится с использованием разложения по сингулярным значениям (SVD) для получения низкорангового приближения к преобразованной версии матрицы данных X , n строк которой являются выборками (также называемыми случаями или объектами), а p столбцов - переменные. Преобразованная матрица данных Y получается из исходной матрицы X путем центрирования и, при необходимости, стандартизации столбцов (переменных). Используя SVD, мы можем записать Y  = ∑ k = 1, ... p d k u k v k T ;, где u kявляются n -мерными векторами-столбцами, v k являются p -мерными векторами-столбцами, а d k являются невозрастающей последовательностью неотрицательных скаляров . Двукратный график формируется из двух графиков рассеяния, которые имеют общий набор осей и имеют интерпретацию скалярного произведения между наборами . Первая диаграмма рассеяния формируется из точек ( d 1 α u 1 i ,   d 2 α u 2 i ) для i  = 1, ..., n . Второй график формируется из точек ( d 11 − α v 1 jd 2 1 − α v 2 j ), для j  = 1, ..., p. Это двумерный график, образованный двумя доминирующими членами SVD, который затем может быть представлен на двумерном дисплее. Типичный выбор α - это 1 (чтобы дать интерпретацию расстояния для отображения строки) и 0 (чтобы дать интерпретацию расстояния для отображения столбца), а в некоторых редких случаях α = 1/2 для получения симметрично масштабируемого двоичного графика (что дает нет интерпретации расстояния для строк или столбцов, а только интерпретация скалярного произведения). Набор точек, изображающих переменные, можно нарисовать в виде стрелок от начала координат, чтобы укрепить идею о том, что они представляют собой оси двух графиков, на которые можно проецировать образцы для аппроксимации исходных данных.

Ссылки [ править ]

  1. ^ 'Габриэль, KR (1971). Двухслойное графическое отображение матриц с приложением к анализу главных компонентов. Биометрика , 58 (3), 453–467.
  2. ^ Гринакр, М. (2010). Биплоты на практике . Фонд BBVA, Бильбао, Испания. Доступно бесплатно на http://www.multivariatestatistics.org
  3. ^ Lewi, Paul J. (2005). «Спектральное отображение, личный и исторический отчет о приключении в многомерном анализе данных». Хемометрия и интеллектуальные лабораторные системы . 77 (1–2): 215–223. DOI : 10.1016 / j.chemolab.2004.07.010 .
  4. ^ Дэвид Ливингстон (2009). Практическое руководство по анализу научных данных. Чичестер, John Wiley & Sons Ltd, 233–238. ISBN 978-0-470-85153-1 
  5. ^ Гринакр, М. (2016) Анализ корреспонденции на практике. Третье издание . Чепмен и Холл / CRC Press. ISBN 978-84-923846-8-6 

Источники [ править ]

  • Габриэль, KR (1971). «Двухслойное графическое отображение матриц с приложением к анализу главных компонент». Биометрика . 58 (3): 453–467. DOI : 10.1093 / Biomet / 58.3.453 .
  • Гауэр, Дж. К., Люббе, С. и Ле Ру, Н. (2010). Понимание биплотов . Вайли . ISBN 978-0-470-01255-0 
  • Гауэр, Джей Си и Хэнд, ди-джей (1996). Биплоты . Chapman & Hall , Лондон, Великобритания. ISBN 0-412-71630-5 
  • Ян В. и Канг М.С. (2003). Анализ двух графиков GGE . CRC Press , Бока-Ратон, Флорида. ISBN 0-8493-1338-4 
  • Демей, Дж. Р., Висенте-Вильярдон, Дж. Л., Галиндо-Вильярдон, депутат парламента, и Самбрано, А.Ю. (2008). Определение молекулярных маркеров, связанных с классификацией генотипов с помощью внешних логистических биплотов . Биоинформатика . 24 (24): 2832–2838