Вычислительная геномика

Вычислительная геномика (часто неправильно именуемая вычислительной генетикой ^[1] ) относится к использованию вычислительного и статистического анализа для расшифровки биологии из последовательностей генома и связанных данных ^[2], включая последовательности ДНК и РНК , а также другие "постгеномные" данные. «данные (т.е. экспериментальные данные, полученные с помощью технологий, требующих последовательности генома, таких как микроматрицы геномной ДНК ). В сочетании с вычислительными и статистическими подходами к пониманию функции генов и статистическим ассоциативным анализом эта область также часто называется вычислительной и статистической генетикой./ геномика. Таким образом, вычислительную геномику можно рассматривать как подмножество биоинформатики и вычислительной биологии , но с акцентом на использование целых геномов (а не отдельных генов) для понимания принципов того, как ДНК вида контролирует его биологию на молекулярном уровне и вне. При нынешнем изобилии массивных наборов биологических данных компьютерные исследования стали одним из наиболее важных средств для биологических открытий. ^[3]

История

Корни вычислительной геномики совпадают с корнями биоинформатики . В течение 1960-х Маргарет Дейхофф и другие сотрудники Национального фонда биомедицинских исследований собрали базы данных гомологичных белковых последовательностей для эволюционного исследования. ^[4] Их исследование разработало филогенетическое древо, которое определило эволюционные изменения, которые потребовались для того, чтобы конкретный белок превратился в другой белок, на основе лежащих в основе аминокислотных последовательностей. Это привело их к созданию оценочной матрицы, которая оценивала вероятность того, что один белок связан с другим.

Начиная с 1980-х годов, начали регистрироваться базы данных последовательностей генома, но это создало новые проблемы в виде поиска и сравнения баз данных с информацией о генах. В отличие от алгоритмов текстового поиска, которые используются на таких веб-сайтах, как Google или Wikipedia, для поиска участков генетического сходства требуется найти строки, которые не просто идентичны, а похожи. Это привело к разработке алгоритма Нидлмана-Вунша , который представляет собой алгоритм динамического программирования для сравнения наборов аминокислотных последовательностей друг с другом с использованием скоринговых матриц, полученных из более раннего исследования Dayhoff. Позже был разработан алгоритм BLAST для выполнения быстрого и оптимизированного поиска в базах данных последовательностей генов. BLAST и его производные, вероятно, являются наиболее широко используемыми алгоритмами для этой цели. ^[5]

Появление термина «вычислительная геномика» совпадает с появлением полных секвенированных геномов в середине-конце 1990-х годов. Первое заседание Ежегодной конференции по вычислительной геномике было организовано учеными из Института геномных исследований (TIGR) в 1998 году, что стало форумом для этой специальности и эффективно отличает эту область науки от более общих областей геномики или вычислительной биологии . ^{[ необходима цитата ]} Первое использование этого термина в научной литературе, согласно рефератам из MEDLINE , произошло всего за год до этого в исследовании Nucleic Acids Research . ^[6] Заключительная конференция по вычислительной геномике была проведена в 2006 году, на ней выступил лауреат Нобелевской премии Барри Маршалл , один из исследователей связи между Helicobacter pylori и язвой желудка. По состоянию на 2014 год ведущие конференции в этой области включают « Интеллектуальные системы для молекулярной биологии» (ISMB) и « Исследования в области вычислительной молекулярной биологии» (RECOMB).

Развитие компьютерной математики (с использованием таких продуктов, как Mathematica или Matlab ) помогло инженерам, математикам и компьютерным специалистам начать работу в этой области, и общедоступная коллекция тематических исследований и демонстраций растет, начиная от полных сравнений генома и заканчивая геном. экспрессионный анализ. ^[7] Это увеличило внедрение различных идей, в том числе концепций систем и управления, теории информации, анализа строк и интеллектуального анализа данных. Ожидается, что вычислительные подходы станут и останутся стандартной темой для исследований и обучения, в то время как студенты, свободно владеющие обеими темами, начнут формироваться в нескольких курсах, созданных за последние несколько лет.

Вклад исследований компьютерной геномики в биологию

Вклад исследований компьютерной геномики в биологию включает: ^[3]

предлагая сотовые сети сигнализации
предлагая механизмы эволюции генома
предсказывать точное местоположение всех генов человека, используя методы сравнительной геномики с несколькими видами млекопитающих и позвоночных
прогнозировать консервативные области генома, связанные с ранним эмбриональным развитием
обнаружить потенциальные связи между повторяющимися последовательностями мотивов и тканеспецифической экспрессией генов
измерять участки геномов, которые претерпели необычайно быструю эволюцию

Сравнение генома

Вычислительные инструменты были разработаны для оценки сходства геномных последовательностей. Некоторые из них представляют собой расстояния, основанные на выравнивании, такие как Средняя идентичность нуклеотидов ^[8] . Эти методы очень специфичны, но при этом требуют медленных вычислений. Другие методы, не требующие согласования, включают статистический и вероятностный подходы. Одним из примеров является Mash ^[9] , вероятностный подход с использованием minhash . В этом методе при заданном номере k геномная последовательность преобразуется в более короткий набросок с помощью случайной хеш-функции на возможных k-мерах . Например, если ${\ displaystyle k = 2}$ , эскизы размера 4 строятся и получают следующую хэш-функцию ${\ displaystyle {\ begin {array} {cccc} (AA, 0) & (AC, 8) & (AT, 2) & (AG, 14) \\ (CA, 6) & (CC, 13) & ( CT, 5) & (CG, 4) \\ (GA, 15) & (GC, 12) & (GT, 10) & (GG, 1) \\ (TA, 3) & (TC, 11) & ( TT, 9) & (TG, 7) \ end {array}}}$ ,

набросок последовательности

${\ displaystyle CTGACCTTAACGGGAGACTATGATGACGACCGCAT}$

является ${\ Displaystyle \ lbrace 0,1,1,2 \ rbrace}$ которые являются наименьшими значениями хеш-функции его k-мер размера 2. Затем эти эскизы сравниваются, чтобы оценить долю общих k-мер ( индекс Жаккара ) в соответствующих последовательностях. Стоит заметить, что хеш-значение - это двоичное число. В реальных условиях генома полезный размер k-меров колеблется от 14 до 21, а размер эскизов будет около 1000 ^[10] .

Уменьшая размер последовательностей даже в сотни раз и сравнивая их без выравнивания, этот метод значительно сокращает время оценки сходства последовательностей.

Кластеризация геномных данных

Кластеризация данных - это инструмент, используемый для упрощения статистического анализа геномного образца. Например, в ^[11] авторы разработали инструмент (BiG-SCAPE) для анализа сетей сходства последовательностей кластеров биосинтетических генов (BGC). В ^[12] последовательные уровни кластеризации кластеров биосинтетических генов используются в автоматизированном инструменте BiG-MAP, как для фильтрации избыточных данных, так и для идентификации семейств кластеров генов. Этот инструмент определяет уровень содержания и экспрессии BGC в образцах микробиома.

Кластеры биосинтетических генов

Биоинформатические инструменты были разработаны для прогнозирования и определения численности и экспрессии этого типа кластера генов в образцах микробиома на основе метагеномных данных. ^[13] Поскольку размер метагеномных данных значителен, их фильтрация и кластеризация являются важными частями этих инструментов. Эти процессы могут состоять из методов уменьшения размерности, таких как Minhash ^[14] , и алгоритмов кластеризации, таких как k-medoids и распространение сродства . Также было разработано несколько показателей и сходств для их сравнения.

Анализ генома для биосинтетических кластеров генов (BGC) стал неотъемлемой частью открытия природных продуктов. В настоящее время в открытом доступе более 200 000 микробных геномов содержат информацию о множестве новых химических свойств. Один из способов ориентироваться в этом огромном геномном разнообразии - это сравнительный анализ гомологичных BGC, который позволяет идентифицировать межвидовые паттерны, которые могут быть сопоставлены с наличием метаболитов или биологической активностью. Однако текущим инструментам мешает узкое место, вызванное дорогостоящим сетевым подходом, используемым для группировки этих BGC в семейства кластеров генов (GCF). BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine), инструмент, предназначенный для кластеризации большого количества BGC. Представляя их в евклидовом пространстве, BiG-SLiCE может сгруппировать BGC в GCF непарным, почти линейным образом.

Satria et. al, 2021 ^[15] через BiG-SLiCE демонстрируют полезность такого анализа, реконструируя глобальную карту вторичного метаболического разнообразия по таксономии для выявления неизведанного биосинтетического потенциала, открывает новые возможности для ускорения открытия естественных продуктов и предлагает первый шаг к построению глобальная и доступная для поиска взаимосвязанная сеть BGC. По мере того, как все больше геномов секвенировано из малоизученных таксонов, можно получить больше информации, чтобы выделить их потенциально новый химический состав. ^[16]

Смотрите также

Биоинформатика
Вычислительная биология
Геномика
Микрочип
ВЗРЫВ
Вычислительная эпигенетика

Внешние ссылки

Гарвардская школа по биофизике 101, геномика и вычислительная биология, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
Курс Бристольского университета по вычислительной геномике, http://www.computational-genomics.net/

[WHO-1] Определения генетики и геномики ВОЗ

[2] Кунин EV (март 2001). «Вычислительная геномика». Текущая биология . 11 (5): R155–8. DOI : 10.1016 / S0960-9822 (01) 00081-1 . PMID 11267880 . S2CID 17202180 .

[MIT-3] Вычислительная геномика и протеомика в Массачусетском технологическом институте

[4] Гора D (2000). Биоинформатика, анализ последовательностей и генома . Лабораторный пресс Колд-Спринг-Харбор. С. 2–3. ISBN 978-0-87969-597-2.

[5] Браун Т.А. (1999). Геномы . Вайли. ISBN 978-0-471-31618-3.

[6] Вагнер А. (сентябрь 1997 г.). «Вычислительный подход геномики к идентификации генных сетей» . Исследования нуклеиновых кислот . 25 (18): 3594–604. DOI : 10.1093 / NAR / 25.18.3594 . PMC 146952 . PMID 9278479 .

[7] Кристианини Н., Хан М. (2006). Введение в вычислительную геномику . Издательство Кембриджского университета. ISBN 978-0-521-67191-0.

[8] {{cite journal | vauthors = Konstantinidis KT, Tiedje JM | title = Геномные идеи, способствующие определению видов прокариот | journal = Proc Natl Acad Sci US A. | date = 2005; | volume = 102 | pages = 2567–72 .

[9] Ондов Б., Треанген Т., Мельстед П., Мэллони А., Бергман Н., Корен С., Филлиппи А. (2016). «Mash: быстрая оценка расстояния между геномами и метагеномами с использованием MinHash» . Геномная биология . 17 (32): 14. DOI : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .

[10] Ондов Б., Треанген Т., Мельстед П., Мэллони А., Бергман Н., Корен С., Филлиппи А. (2016). «Mash: быстрая оценка расстояния между геномами и метагеномами с использованием MinHash» . Геномная биология . 17 (32): 14. DOI : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .

[11] Наварро-Муньос Дж., Селем-Мохика Н., Маллоуни М., Каутсар С., Трайон Дж., Паркинсон Е., Де Лос Сантос Е, Йонг М., Крус-Моралес П., Абубукер С., Роетерс А., Локхорст В., Фернандес-Герра А., Диас -Капелини Л., Геринг А., Томсон Р., Меткалф В., Келлехер Н., Барона-Гомес Ф., Медема М. (2020). «Вычислительная структура для изучения крупномасштабного биосинтетического разнообразия» . Nat Chem Biol . 16 (1): 60–68. DOI : 10.1038 / s41589-019-0400-9 . PMC 6917865 . PMID 31768033 .

[12] Паскаль-Андреу V, Огюстейн Х., ван ден Берг К., ван дер Хоофт Дж., Фишбах М, Медема М (2020). «BiG-MAP: автоматизированный конвейер для профилирования количества метаболических кластеров генов и их экспрессии в микробиомах»: 32. doi : 10.1101 / 2020.12.14.422671 . Цитировать журнал требует |journal=( помощь )

[13] Паскаль-Андреу V, Огюстейн Х., ван ден Берг К., ван дер Хоофт Дж., Фишбах М, Медема М (2020). «BiG-MAP: автоматизированный конвейер для профилирования метаболических кластеров генов и их экспрессии в микробиомах». bioRxiv : 32. DOI : 10,1101 / 2020.12.14.422671 .

[14] Ондов Б., Треанген Т., Мельстед П., Мэллони А., Бергман Н., Корен С., Филлиппи А. (2016). «Mash: быстрая оценка расстояния между геномами и метагеномами с использованием MinHash» . Геномная биология . 17 (32): 14. DOI : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .

[15] Каутсар, Сатрия А; ван дер Хоофт, Джастин Джей Джей; де Риддер, Дик; Медема, Марникс Х (13 января 2021 г.). «BiG-SLiCE: инструмент с высокой степенью масштабируемости, отображающий разнообразие 1,2 миллиона кластеров биосинтетических генов» . GigaScience . 10 (1): giaa154. DOI : 10,1093 / gigascience / giaa154 . PMC 7804863 . PMID 33438731 .

[16] Каутсар, Сатрия А; ван дер Хоофт, Джастин Джей Джей; де Риддер, Дик; Медема, Марникс Х (13 января 2021 г.). «BiG-SLiCE: инструмент с высокой степенью масштабируемости, отображающий разнообразие 1,2 миллиона кластеров биосинтетических генов» . GigaScience . 10 (1): giaa154. DOI : 10,1093 / gigascience / giaa154 . PMC 7804863 . PMID 33438731 .

[1]