Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Взвешенный корреляционный анализ сети , также известный как взвешенный ген коэкспрессия сетевого анализа (WGCNA), является широко используемыми данными горны методами особенно для изучения биологических сетей на основе парных корреляций между переменным. Хотя он может применяться к большинству многомерных наборов данных, он наиболее широко используется в геномных приложениях. Это позволяет определять модули (кластеры), внутримодульные концентраторы и сетевые узлы с учетом членства в модулях, изучать отношения между модулями совместного выражения и сравнивать топологию сети различных сетей (дифференциальный сетевой анализ). WGCNA может использоваться какметод сокращения данных (связанный с косвенным факторным анализом ), как метод кластеризации (нечеткая кластеризация), как метод отбора признаков (например, как метод скрининга генов), как основа для интеграции дополнительных (геномных) данных (на основе взвешенных корреляций между количественными переменных), а также как метод исследования данных . [1] Хотя WGCNA включает в себя традиционные методы исследования данных, ее интуитивно понятный сетевой язык и структура анализа превосходят любые стандартные методы анализа. Поскольку он использует сетевую методологию и хорошо подходит для интеграции дополнительных наборов геномных данных, его можно интерпретировать как системный биологическийили системный метод анализа генетических данных. Выбирая внутримодульные концентраторы в консенсусных модулях, WGCNA также дает начало сетевым методам метаанализа . [2]

История [ править ]

Метод WGCNA был разработан Стивом Хорват , профессор генетики человека в David Geffen Школа медицины в Лос - Анджелесе и в биостатистике в UCLA Филдинг школы общественного здравоохранения и его коллеги из Калифорнийского университета и члены (бывшие) лаборатории (в частности , Питер Лангфельдер, Бинь Чжан, Цзюнь Донг). Большая часть работы возникла в результате сотрудничества с прикладными исследователями. В частности, взвешенные корреляционные сети были разработаны в ходе совместных дискуссий с исследователями рака Полом Мишелем , Стэнли Ф. Нельсоном и нейробиологами Дэниелом Х. Гешвиндом , Майклом К. Олдхэмом (согласно разделу благодарностей в [1]).). Существует обширная литература по сетям зависимостей, сетям без масштабирования и сетям коэкспрессии. [ необходима цитата ]

Сравнение взвешенных и невзвешенных корреляционных сетей [ править ]

Взвешенная корреляция сеть можно интерпретировать как частный случай взвешенной сети , сети зависимостей или корреляционную сеть. Взвешенный корреляционный сетевой анализ может быть привлекательным по следующим причинам:

  • Построение сети (на основе мягкого определения порога коэффициента корреляции ) сохраняет непрерывный характер лежащей в основе корреляционной информации. Например, взвешенные корреляционные сети, построенные на основе корреляций между числовыми переменными, не требуют выбора жесткого порога. Дихотомия информации и (жесткое) определение порога могут привести к потере информации. [3]
  • Построение сети дает очень надежные результаты в отношении различных вариантов мягкого порога. [3] Напротив, результаты, основанные на невзвешенных сетях, построенных путем определения порога попарной меры ассоциации, часто сильно зависят от порога.
  • Сети взвешенной корреляции облегчают геометрическую интерпретацию, основанную на угловой интерпретации корреляции, глава 6 в [4]
  • Полученная сетевая статистика может использоваться для улучшения стандартных методов интеллектуального анализа данных, таких как кластерный анализ, поскольку показатели (несходства) часто могут быть преобразованы во взвешенные сети; [5] см. Главу 6 в [4]
  • WGCNA предоставляет мощную статистику сохранения модулей, которую можно использовать для количественной оценки того, можно ли найти в другом состоянии. Также статистика сохранности модулей позволяет изучать различия в модульной структуре сетей. [6]
  • Взвешенные сети и сети корреляции часто можно аппроксимировать "факторизуемыми" сетями. [4] [7] Такие приближения часто трудно достичь для разреженных невзвешенных сетей. Следовательно, взвешенные (корреляционные) сети допускают экономную параметризацию (с точки зрения модулей и членства в модулях) (главы 2, 6 в [1] ) и. [8]

Метод [ править ]

Во-первых, определяется мера сходства коэкспрессии генов, которая используется для определения сети. Обозначим меру сходства коэкспрессии генов пары генов i и j через . Многие исследования коэкспрессии используют абсолютное значение корреляции в качестве меры сходства беззнаковой коэкспрессии,

где профили экспрессии генов и состоят из экспрессии генов I и J на несколько образцов. Однако использование абсолютного значения корреляции может скрыть биологически значимую информацию, поскольку не делается различий между репрессией генов и активацией. Напротив, в подписанных сетях сходство между генами отражает знак корреляции их профилей экспрессии. Чтобы определить показатель коэкспрессии со знаком между профилями экспрессии генов и , можно использовать простое преобразование корреляции:

В качестве беззнаковой меры сходство со знаком принимает значение от 0 до 1. Обратите внимание, что сходство без знака между двумя противоположно выраженными генами ( ) равно 1, тогда как оно равно 0 для сходства со знаком. Точно так же, хотя беззнаковая мера коэкспрессии двух генов с нулевой корреляцией остается нулевой, сходство со знаком равно 0,5.

Затем матрица смежности (сеть) используется для количественной оценки того, насколько сильно гены связаны друг с другом. определяется пороговым значением матрицы сходства ко-выражений . «Жесткое» пороговое определение (дихотомия) меры сходства приводит к невзвешенной сети коэкспрессии генов. В частности, невзвешенная сетевая смежность определяется как 1, если и 0 в противном случае. Поскольку жесткое определение порога кодирует связи генов двоичным образом, оно может быть чувствительным к выбору порога и приводить к потере информации о коэкспрессии. [3]Непрерывный характер информации о совместном выражении можно сохранить, используя мягкую пороговую обработку, что приводит к взвешенной сети. В частности, WGCNA использует следующую степенную функцию для оценки силы соединения:

,

где power - параметр мягкого порога. Значения по умолчанию и используются для неподписанных и подписанных сетей соответственно. В качестве альтернативы может быть выбран критерий безмасштабной топологии, который сводится к выбору наименьшего значения из такого, что достигается приблизительная безмасштабная топология. [3]

Поскольку взвешенная сетевая смежность линейно связана с подобием совместного выражения в логарифмической шкале. Обратите внимание, что высокая степень преобразует высокое сходство в высокую степень смежности, а низкое сходство приближает к нулю. Поскольку эта процедура мягкого определения порога, применяемая к матрице парной корреляции, приводит к взвешенной матрице смежности, последующий анализ называется сетью взвешенной коэкспрессии генов. анализ.

Важным шагом в модульно-ориентированном анализе является кластеризация генов в сетевые модули с использованием меры сетевой близости. Грубо говоря, пара генов имеет высокую степень близости, если они тесно связаны между собой. По соглашению максимальная близость между двумя генами равна 1, а минимальная близость равна 0. Обычно WGCNA использует меру топологического перекрытия (TOM) как близость. [9] [10], который также может быть определен для взвешенных сетей. [3]TOM сочетает в себе соседство двух генов и силу связи, которую эти два гена разделяют с другими генами «третьей стороны». TOM - это очень надежный показатель взаимосвязанности (близости) сети. Эта близость используется в качестве входных данных иерархической кластеризации средней связи. Модули определяются как ветви результирующего дерева кластеров с использованием метода динамического отсечения ветвей. [11] Затем гены внутри данного модуля суммируются с собственным геном модуля , что можно рассматривать как лучшее обобщение стандартизованных данных экспрессии модуля. [4] Собственный ген модуля данного модуля определяется как первый главный компонент стандартизованных профилей выражений. Eigengenes определяют надежные биомаркеры, [12]и могут использоваться как функции в сложных моделях машинного обучения, таких как байесовские сети . [13] Чтобы найти модули, которые относятся к интересующему клиническому признаку, собственные гены модулей коррелируют с представляющим интерес клиническим признаком, что приводит к измерению значимости собственных генов. Собственные гены можно использовать в качестве функций в более сложных прогнозных моделях, включая деревья решений и байесовские сети. [12] Можно также построить сети совместного выражения между собственными генами модулей (сетями собственных генов), то есть сетями, узлы которых являются модулями. [14] Чтобы идентифицировать внутримодульные гены-концентраторы внутри данного модуля, можно использовать два типа мер связности. Первый, именуемый, определяется на основе корреляции каждого гена с соответствующим собственным геном модуля. Второй, называемый kIN, определяется как сумма смежностей по отношению к генам модуля. На практике эти две меры эквивалентны. [4] Чтобы проверить, сохраняется ли модуль в другом наборе данных, можно использовать различную сетевую статистику, например . [6]

Приложения [ править ]

WGCNA широко используется для анализа данных экспрессии генов (т.е. данных транскрипции), например, для поиска внутримодульных узловых генов. [2] [15] Например, исследование WGCNA показывает, что новые факторы транскрипции связаны с дозозависимостью бисфенола А (BPA) . [16]

Он часто используется в качестве этапа обработки данных в системных генетических приложениях, где модули представлены «собственными генами модулей», например [17] [18] Собственные гены модулей могут использоваться для корреляции модулей с клиническими признаками. Сети собственных генов - это сети коэкспрессии между собственными генами модулей (т. Е. Сети, узлы которых являются модулями). WGCNA широко используется в нейробиологических приложениях, например [19] [20] и для анализа геномных данных, включая данные микрочипов , [21] данные RNA-Seq одной клетки [22] [23] данные метилирования ДНК , [24] данные miRNA, пептид количество [25] и микробиотаданные (секвенирование гена 16S рРНК). [26] Другие приложения включают данные изображений мозга, например данные функциональной МРТ . [27]

Программный пакет R [ править ]

Программный пакет WGCNA R [28] предоставляет функции для выполнения всех аспектов взвешенного сетевого анализа (построение модулей, выбор гена-концентратора, статистика сохранения модулей, дифференциальный сетевой анализ, сетевая статистика). Пакет WGCNA доступен в Comprehensive R Archive Network (CRAN), стандартном репозитории для дополнительных пакетов R.

Ссылки [ править ]

  1. ^ а б в Хорват С. (2011). Взвешенный сетевой анализ: применение в геномике и системной биологии . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-1-4419-8818-8.
  2. ^ a b Лангфельдер П., Мишель П.С., Хорват С., Раваси Т. (17 апреля 2013 г.). «Когда выбор гена-концентратора лучше стандартного метаанализа?» . PLOS ONE . 8 (4): e61505. Bibcode : 2013PLoSO ... 861505L . DOI : 10.1371 / journal.pone.0061505 . PMC 3629234 . PMID 23613865 .  
  3. ^ a b c d e Чжан Б., Хорват С. (2005). «Общая основа для взвешенного сетевого анализа коэкспрессии генов» (PDF) . Статистические приложения в генетике и молекулярной биологии . 4 : 17. CiteSeerX 10.1.1.471.9599 . DOI : 10.2202 / 1544-6115.1128 . PMID 16646834 . S2CID 7756201 .    
  4. ^ а б в г д Хорват С., Донг Дж. (2008). "Геометрическая интерпретация сетевого анализа коэкспрессии генов" . PLOS Вычислительная биология . 4 (8): e1000117. Bibcode : 2008PLSCB ... 4E0117H . DOI : 10.1371 / journal.pcbi.1000117 . PMC 2446438 . PMID 18704157 .  
  5. Oldham MC, Langfelder P, Horvath S (12 июня 2012 г.). «Сетевые методы для описания отношений выборки в наборах геномных данных: приложение к болезни Хантингтона» . BMC Systems Biology . 6 : 63. DOI : 10,1186 / 1752-0509-6-63 . PMC 3441531 . PMID 22691535 .  
  6. ^ a b Langfelder P, Luo R, Oldham MC, Horvath S (20 января 2011 г.). «Сохраняется ли и воспроизводится ли мой сетевой модуль?» . PLOS Вычислительная биология . 7 (1): e1001057. Bibcode : 2011PLSCB ... 7E1057L . DOI : 10.1371 / journal.pcbi.1001057 . PMC 3024255 . PMID 21283776 .  
  7. Dong J, Horvath S (4 июня 2007 г.). «Понимание сетевых концепций в модулях» . BMC Systems Biology . 1 : 24. DOI : 10,1186 / 1752-0509-1-24 . PMC 3238286 . PMID 17547772 .  
  8. ^ Ranola JM, Лангфельдер P, K Lange, Хорват S (14 марта 2013). «Аппроксимация сети на основе кластеров и склонностей» . BMC Systems Biology . 7 : 21. DOI : 10,1186 / 1752-0509-7-21 . PMC 3663730 . PMID 23497424 .  
  9. ^ Ravasz E, Somera А.Л., Mongru Д.А., Oltvai ZN, Barabasi AL (2002). «Иерархическая организация модульности в метаболических сетях». Наука . 297 (5586): 1551–1555. arXiv : cond-mat / 0209244 . Bibcode : 2002Sci ... 297.1551R . DOI : 10.1126 / science.1073374 . PMID 12202830 . S2CID 14452443 .  
  10. Yip AM, Horvath S (24 января 2007 г.). «Взаимосвязанность генных сетей и обобщенная мера топологического перекрытия» (PDF) . BMC Bioinformatics . 8 : 22. DOI : 10,1186 / 1471-2105-8-22 . PMC 1797055 . PMID 17250769 .   
  11. ^ Лангфельдер P, Чжан B, Хорват S (2007). «Определение кластеров из иерархического дерева кластеров: библиотека Dynamic Tree Cut для R» . Биоинформатика . 24 (5): 719–20. DOI : 10.1093 / биоинформатики / btm563 . PMID 18024473 . S2CID 1095190 .  
  12. ^ a b Форушани А., Аграхари Р., Док-Р, Чанг Л., Дунс Г., Худоба М., Карсан А., Заре Х. (16 марта 2017 г.). «Крупномасштабный анализ генной сети показывает важность пути внеклеточного матрикса и генов гомеобокса при остром миелоидном лейкозе: введение в пакет Pigengene и его приложения» . BMC Medical Genomics . 10 (1): 16. DOI : 10,1186 / s12920-017-0253-6 . PMC 5353782 . PMID 28298217 .  
  13. ^ Аграхари, Рупеш; Форушани, Амир; Док, Т. Родерик; Чанг, Линда; Дунс, Гербен; Худоба, Моника; Карсан, Али; Заре, Хабил (3 мая 2018 г.). «Применение моделей байесовской сети в прогнозировании типов гематологических злокачественных новообразований» . Научные отчеты . 8 (1): 6951. Bibcode : 2018NatSR ... 8.6951A . DOI : 10.1038 / s41598-018-24758-5 . ISSN 2045-2322 . PMC 5934387 . PMID 29725024 .   
  14. ^ Лангфельдер P, Хорват S (2007). «Сети собственных генов для изучения взаимоотношений между модулями коэкспрессии» . BMC Systems Biology . 2007 (1): 54. DOI : 10,1186 / 1752-0509-1-54 . PMC 2267703 . PMID 18031580 .  
  15. ^ Хорват С., Чжан Б., Карлсон М., Лу К. В., Чжу С., Фелчиано Р. М., Лоранс М. Ф., Чжао В., Шу К., Ли Ю., Шек А. С., Ляу Л. М., Ву Х, Гешвинд Д.Х., Феббо П.Г., Корнблюм Н.И. , Клаугези. TF , Нельсон SF, Мишель PS (2006). «Анализ онкогенных сигнальных сетей в глиобластоме определяет ASPM как новую молекулярную мишень» . PNAS . 103 (46): 17402–17407. Bibcode : 2006PNAS..10317402H . DOI : 10.1073 / pnas.0608396103 . PMC 1635024 . PMID 17090670 .  
  16. ^ Хартунг, Томас; Кленсанг, Андре; Tran, Vy; Мартенс, Александра (2018). «Сетевой анализ взвешенной корреляции генов (WGCNA) выявляет новые факторы транскрипции, связанные с дозой-ответом на бисфенол А» . Границы генетики . 9 : 508. DOI : 10,3389 / fgene.2018.00508 . ISSN 1664-8021 . PMC 6240694 . PMID 30483308 .   
  17. Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss С., Газалпур А., Хорват С., Дрейк Т.А., Лусис А.Дж., Шадт Э.Е. (27 марта 2008 г.). «Вариации в ДНК выясняют молекулярные сети, вызывающие болезнь» . Природа . 452 (7186): 429–35. Bibcode : 2008Natur.452..429C . DOI : 10,1038 / природа06757 . PMC 2841398 . PMID 18344982 .  
  18. ^ Plaisier CL, Хорват S, Хуэртас-Васкес А, Круз-Баутиста я, Herrera М.Ф., Tusie-Луна Т, Агилар-Салинас С, Р Pajukanta, Яруса JD (11 сентября 2009 г.). «Подход системной генетики включает USF1, FADS3 и другие гены-кандидаты, вызывающие семейную комбинированную гиперлипидемию» . PLOS Genetics . 5 (9): e1000642. DOI : 10.1371 / journal.pgen.1000642 . PMC 2730565 . PMID 19750004 .  
  19. ^ Voineagu I, Ван X, Джонстон P, Lowe JK, Tian Y, Хорват S, J Mill, Кантор RM, Blencowe BJ, Geschwind DH (25 мая 2011). «Транскриптомный анализ мозга аутистов выявляет конвергентную молекулярную патологию» . Природа . 474 (7351): 380–4. DOI : 10,1038 / природа10110 . PMC 3607626 . PMID 21614001 .  
  20. ^ Hawrylycz МДж, Леин Е.С., Guillozet-Bongaarts А.Л., Шен EH, Нг л, Миллер JA, ван де Лагемаат Л.Н., Смит К.А., Ebbert А, Райли ZL, Абаджян C, Бекмана CF, Bernard A, Bertagnolli D, Boe AF, Картахена П.М., Чакраварти М.М., Чапин М., Чонг Дж., Далли Р.А., Дэвид Дейли Б., Данг С., Датта С., Ди Н., Долбер Т.А., Фабер В., Фэн Д., Фаулер Д.Р., Голди Дж., Грегор Б.В., Харадон З., Хайнор Д.Р., Хоманн Дж. Г., Хорват С., Ховард Р. Э., Джеромин А., Йочим Дж. М., Киннунен М., Лау С., Лазарц Е. Т., Ли С., Лемон Т. А., Ли Л., Ли Й., Моррис Дж. А., Сверхли СС, Паркер П. Д., Парри С. Е., Рединг М., Ройалл Дж. Дж., Шулкин Дж., Секейра П. А., Слотербек К. Р., Смит С. К., Содт А. Дж., Санкин С. М., Суонсон Б. Э., Фоутер М. П., Уильямс Д., Вонутка П., Зильке Р. Р., Гешвинд Д. Г., Хоф ПР, Смит С. М., Кох С. , Грант С., Джонс А. Р. (20 сентября 2012 г.).«Анатомически исчерпывающий атлас транскриптома мозга взрослого человека» . Природа . 489 (7416): 391–399. Bibcode : 2012Natur.489..391H . DOI : 10.1038 / nature11405 . PMC  4243026 . PMID  22996553 .
  21. ^ Kadarmideen HN, Уотсон-Хей Н.С., Андроникос Н.М. (2011). «Системная биология устойчивости кишечных паразитов овец: генные модули и биомаркеры болезней». Молекулярные биосистемы . 7 (1): 235–246. DOI : 10.1039 / C0MB00190B . PMID 21072409 . 
  22. ^ Kogelman LJ, Cirera S, Жернакова Д.В., фредгольмово M, L Franke, Kadarmideen HN (30 сентября 2014). «Идентификация сетей генов коэкспрессии, регуляторных генов и путей ожирения на основе секвенирования РНК жировой ткани на модели свиней» . BMC Medical Genomics . 7 (1): 57. DOI : 10,1186 / 1755-8794-7-57 . PMC 4183073 . PMID 25270054 .  
  23. ^ Сюэ З, Хуанг К., Цай Ц, Цай Л., Цзян Ц.Й., Фэн И, Лю Ц., Цзэн Ц., Ченг Л., Сунь Й.Е., Лю Ц. Ю., Хорват С., Фан Г (29 августа 2013 г.). «Генетические программы ранних эмбрионов человека и мыши, выявленные с помощью секвенирования одноклеточной РНК» . Природа . 500 (7464): 593–7. Bibcode : 2013Natur.500..593X . DOI : 10,1038 / природа12364 . PMC 4950944 . PMID 23892778 .  
  24. Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA (3 октября 2012 г.). «Влияние старения на модули метилирования ДНК в тканях мозга и крови человека» . Геномная биология . 13 (10): R97. DOI : 10.1186 / GB-2012-13-10-R97 . PMC 4053733 . PMID 23034122 .  
  25. ^ SHIRASAKI Д.И., Грейнер ЭР, Аль-Рамахи я, Серый M, Boontheung Р, Гешвинд DH, Botas J, Коппола G, S Хорват, Лоо JA, Ян XW (12 июля 2012). «Сетевая организация протеомного интерактома хантингтина в мозге млекопитающих» . Нейрон . 75 (1): 41–57. DOI : 10.1016 / j.neuron.2012.05.024 . PMC 3432264 . PMID 22794259 .  
  26. ^ Маоменг Тонг; Сяосяо Ли; Лаура Вегенер Парфри ; и другие. (2013). «Модульная организация микробиоты слизистой оболочки кишечника человека и ее связь с воспалительным заболеванием кишечника» . PLOS ONE . 8 (11): e80702. DOI : 10.1371 / JOURNAL.PONE.0080702 . ISSN 1932-6203 . PMC 3834335 . PMID 24260458 . Викиданные Q21559533 .    
  27. ^ Mumford JA, Хорват S, Олдхэм MC, Лангфельдер P, Geschwind DH, Poldrack RA (1 октября 2010). «Обнаружение сетевых модулей во временных рядах fMRI: подход к взвешенному сетевому анализу» . NeuroImage . 52 (4): 1465–76. DOI : 10.1016 / j.neuroimage.2010.05.047 . PMC 3632300 . PMID 20553896 .  
  28. ^ Лангфельдер P, S Хорват (29 декабря 2008). «WGCNA: пакет R для взвешенного корреляционного сетевого анализа» . BMC Bioinformatics . 9 : 559. DOI : 10,1186 / 1471-2105-9-559 . PMC 2631488 . PMID 19114008 .