Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В молекулярной филогенетике отношения между людьми определяются с использованием признаков характера, таких как ДНК , РНК или белок , которые могут быть получены с использованием различных технологий секвенирования . Секвенирование следующего поколения с высокой пропускной способностью стало популярным методом в транскриптомике , который представляет собой моментальный снимок экспрессии генов. У эукариот выполнение филогенетических выводов с использованием РНК затруднено из-за альтернативного сплайсинга , который дает несколько транскриптов из одного гена.. Таким образом, можно использовать различные подходы для улучшения филогенетических выводов с использованием транскриптомных данных, полученных из RNA-Seq и обработанных с использованием вычислительной филогенетики .

Получение последовательности [ править ]

Для сбора информации о последовательностях транскриптомов использовалось несколько технологий транскриптомики . Однако наиболее широко используется RNA-Seq .

RNA-Seq [ править ]

Считывания РНК могут быть получены с использованием различных методов РНК-секвенирования.

Публичные базы данных [ править ]

Существует ряд общедоступных баз данных, которые содержат свободно доступные данные RNA-Seq.

Сборка [ править ]

Сборка последовательности [ править ]

Данные RNA-Seq могут быть непосредственно собраны в транскрипты с использованием сборки последовательностей . Часто выделяют две основные категории последовательной сборки :

  1. Сборка транскриптома de novo - особенно важно, когда эталонный геном не доступен для данного вида .
  2. Сборка на основе генома (иногда сборка на основе картирования или справочника) - способна использовать уже существующую ссылку для руководства сборкой транскриптов.

Оба метода пытаются создать биологически репрезентативные конструкции на уровне изоформ из данных РНК-seq и обычно пытаются связать изоформы с конструкцией на уровне гена. Однако правильная идентификация конструкций на уровне гена может быть затруднена недавними дупликациями , паралогами , альтернативным сплайсингом или слияниями генов . Эти осложнения также могут вызывать проблемы ниже по течению во время вывода ортолога. При выборе или создании данных о последовательностях также важно учитывать тип ткани, стадию развития и условия окружающей среды организмов. Поскольку транскриптом представляет собой снимок экспрессии генов, незначительные изменения этих условий могут существенно повлиять на то, какие транскрипты выражаются. Это может отрицательно повлиять на последующее обнаружение ортологов. [1]

Публичные базы данных [ править ]

РНК также можно получить из общедоступных баз данных, таких как GenBank , RefSeq , 1000 Plants (1KP) и 1KITE . Общедоступные базы данных потенциально предлагают курируемые последовательности, которые могут улучшить качество вывода и избежать вычислительных затрат, связанных со сборкой последовательностей .

Выявление ортологии / паралогии пары генов [ править ]

Подходы [ править ]

Вывод ортологии или паралогии требует оценки гомологии последовательностей , обычно посредством выравнивания последовательностей . Филогенетический анализ и выравнивание последовательностей часто рассматриваются совместно, поскольку филогенетический анализ с использованием ДНК или РНК требует выравнивания последовательностей, а сами выравнивания часто представляют собой некоторую гипотезу гомологии . Поскольку правильная идентификация ортолога имеет решающее значение для филогенетического анализа, существует множество доступных методов для вывода ортологов и паралогов . [2]

Эти методы обычно делятся на алгоритмы на основе графов или алгоритмы на основе деревьев. Некоторые примеры основанных на графах методов включают InParanoid, [3] MultiParanoid, [4] OrthoMCL, [5] HomoloGene [6] и OMA. [7] Древовидные алгоритмы включают такие программы, как OrthologID или RIO. [8] [2]

Разнообразные методы BLAST часто используются для обнаружения ортологов между видами в рамках алгоритмов на основе графов, таких как MegaBLAST, BLASTALL или других форм BLAST «все против всех», и могут представлять собой выравнивания на основе нуклеотидов или белков . [9] [10] RevTrans [11] даже будет использовать данные о белках для информации о выравнивании ДНК, что может быть полезно для разрешения более отдаленных филогенетических отношений. Эти подходы часто предполагают, что наилучшие взаимные совпадения, прошедшие некоторую пороговую метрику (и), такие как идентичность, E-значение или процентное совпадение, представляют собой ортологи и могут быть сбиты с толкунеполная сортировка по происхождению . [12] [13]

Базы данных и инструменты [ править ]

Важно отметить, что отношения ортологии в общедоступных базах данных обычно представляют ортологию на уровне генов и не предоставляют информацию о сохраненных альтернативных вариантах сплайсинга .

Базы данных, которые содержат и / или обнаруживают ортологические отношения, включают:

  • ДИОПТ
  • Ensembl Compara
  • GreenPhylDB
  • HaMStR
  • HomoloGene
  • InParanoid
  • Мультипараноид
  • OMA
  • OrthoDB
  • OrthologID
  • OrthoMCL
  • OrtholugeDB
  • PhylomeDB
  • TreeFam
  • яйцоNOG
  • МЕТАФОРЫ

Выравнивание множественных последовательностей [ править ]

Поскольку эукариотическая транскрипция представляет собой сложный процесс, с помощью которого можно получить несколько транскриптов из одного гена путем альтернативного сплайсинга с переменной экспрессией , использование РНК более сложно, чем ДНК. Однако транскриптомы дешевле секвенировать, чем полные геномы, и их можно получить без использования уже существующего эталонного генома . [1]

При использовании транскриптомных данных нередко переводят последовательность РНК в последовательность белка, особенно при анализе сильно различающихся таксонов. Это интуитивно понятный шаг, поскольку ожидается, что многие (но не все) транскрипты будут кодировать изоформы белка . Потенциальные преимущества включают уменьшение мутационных ошибок и уменьшение количества символов, что может ускорить анализ. Однако это сокращение символов может также привести к потере потенциально информативных символов. [1]

Существует ряд инструментов для множественного выравнивания последовательностей . Все они обладают своими сильными и слабыми сторонами и могут быть специализированы для различных типов последовательностей (ДНК, РНК или белок). Таким образом, выравниватель с учетом сплайсинга может быть идеальным для выравнивания последовательностей РНК, тогда как выравниватель, который учитывает структуру белка или скорости замены остатков, может быть предпочтительным для данных транслируемых последовательностей РНК.

Возможности и ограничения [ править ]

Использование РНК для филогенетического анализа имеет свой уникальный набор сильных и слабых сторон.

Преимущества [ править ]

  • большой набор персонажей
  • экономически эффективным
  • не зависит от эталонного генома

Недостатки [ править ]

  • расходы на обширную выборку таксонов
  • сложность идентификации полноразмерных, однокопийных транскриптов и ортологов
  • потенциальная неправильная сборка транскриптов (особенно при наличии дубликатов)
  • отсутствующие данные как продукт транскриптома, представляющие моментальный снимок экспрессии или неполной сортировки по происхождению [14]

См. Также [ править ]

  • ВЗРЫВ
  • Кодирующая область
  • Вычислительная филогенетика
  • Сборка транскриптомов de novo
  • Exome
  • Секвенирование экзома
  • Выраженный тег последовательности
  • Экспрессия гена
  • Гомология
  • Список программ филогенетики
  • Филогенетика
  • Филогенетическое дерево
  • РНК
  • РНК-Seq
  • Выравнивание последовательности
  • Синонимичная подстановка
  • Систематика
  • Транскриптом
  • UniGene

Ссылки [ править ]

  1. ^ a b c Хорандл, Эльвира; Аппельханс, Марк (2015). Секвенирование нового поколения в систематике растений . Научные книги Кельца. ISBN 9783874294928.
  2. ^ a b Салихос, Леонид; Рокас, Антонис; Фэйрхед, Сесиль (13 апреля 2011 г.). «Оценка алгоритмов предсказания ортолога в кладе модели дрожжей» . PLoS ONE . 6 (4): e18755. DOI : 10.1371 / journal.pone.0018755 . PMC 3076445 . PMID 21533202 .  
  3. ^ Остлунд, G .; Schmitt, T .; Forslund, K .; Костлер, Т .; Мессина, DN; Roopra, S .; Frings, O .; Sonnhammer, ELL (5 ноября 2009 г.). «InParanoid 7: новые алгоритмы и инструменты для анализа ортологии эукариот» . Исследования нуклеиновых кислот . 38 (База данных): D196 – D203. DOI : 10.1093 / NAR / gkp931 . PMC 2808972 . PMID 19892828 .  
  4. ^ Алексеенко, А .; Tamas, I .; Лю, G .; Зоннхаммер, ELL (27 июля 2006 г.). «Автоматическая кластеризация ортологов и паралогов, общих для нескольких протеомов» . Биоинформатика . 22 (14): e9 – e15. DOI : 10.1093 / биоинформатики / btl213 .
  5. ^ Ли, Л. (1 сентября 2003 г.). "OrthoMCL: Идентификация групп ортологов для геномов эукариот" . Геномные исследования . 13 (9): 2178–2189. DOI : 10.1101 / gr.1224503 . PMC 403725 . PMID 12952885 .  
  6. ^ Сэйерс, EW; Barrett, T .; Benson, DA; Bolton, E .; Брайант, SH; Canese, K .; Четвернин, В .; Церковь, DM; DiCuccio, M .; Federhen, S .; Feolo, M .; Фингерман, И. М.; Geer, LY; Helmberg, W .; Капустин, Ю .; Ландсман, Д .; Липман, диджей; Lu, Z .; Мэдден, TL; Madej, T .; Maglott, DR; Marchler-Bauer, A .; Миллер, В .; Mizrachi, I .; Ostell, J .; Панченко, А .; Phan, L .; Прюитт, KD; Schuler, GD; Sequeira, E .; Шерри, ST; Shumway, M .; Сироткин, К .; Слотта, Д .; Суворов, А .; Старченко, Г .; Татусова, Т.А.; Вагнер, Л .; Wang, Y .; Уилбур, WJ; Ященко, Э .; Йе, Дж. (21 ноября 2010 г.). «Ресурсы базы данных Национального центра биотехнологической информации» . Исследования нуклеиновых кислот . 39 (База данных): D38 – D51. doi :10.1093 / нар / gkq1172 . PMC  3013733 . PMID  21097890 .
  7. ^ Альтенхофф, AM; kunca, N .; Glover, N .; Поезд, К.-М .; Sueki, A .; Pili ota, I .; Гори, К .; Томичек, Б .; Muller, S .; Redestig, H .; Gonnet, GH; Дессимоз, К. (15 ноября 2014 г.). «База данных ортологии OMA в 2015 году: предсказания функций, улучшенная поддержка растений, вид синтений и другие улучшения» . Исследования нуклеиновых кислот . 43 (D1): D240 – D249. DOI : 10.1093 / NAR / gku1158 .
  8. ^ Zmasek, Кристиан М; Эдди, Шон Р. (2002). «RIO: Анализ протеомов с помощью автоматизированной филогеномики с использованием повторного вывода ортологов» . BMC Bioinformatics . 3 (1): 14. DOI : 10,1186 / 1471-2105-3-14 .
  9. ^ Баркер, MS; Vogel, H .; Шранц, Мэн (5 октября 2009 г.). "Палеополиплоидия в Brassicales: анализ транскриптома Cleome выясняет историю дублирования генома у Arabidopsis и других Brassicales" . Геномная биология и эволюция . 1 : 391–399. DOI : 10.1093 / GbE / evp040 .
  10. ^ Ян, Сюй; Ченг, Ю-Фу; Дэн, Цао; Ма, Ян; Ван, Чжи-Вэнь; Чен, Сюэ-Хао; Сюэ, Линь-Бао (2014). «Сравнительный транскриптомный анализ баклажанов (Solanum melongena L.) и ягод индейки (Solanum torvum Sw.): Филогеномика и анализ устойчивости к болезням» . BMC Genomics . 15 (1): 412. DOI : 10.1186 / 1471-2164-15-412 .
  11. ^ Wernersson, R. (1 июля 2003). «RevTrans: множественное выравнивание кодирующей ДНК из выровненных аминокислотных последовательностей» . Исследования нуклеиновых кислот . 31 (13): 3537–3539. DOI : 10.1093 / NAR / gkg609 .
  12. ^ Moreno-Hagelsieb, G .; Латимер, К. (26 ноября 2007 г.). «Выбор параметров BLAST для лучшего обнаружения ортологов как взаимных лучших совпадений» . Биоинформатика . 24 (3): 319–324. DOI : 10.1093 / биоинформатики / btm585 .
  13. ^ Кастильо-Рамирес, Сантьяго; Гонсалес, Виктор (2008). «Факторы, влияющие на соответствие между деревьями ортологичных генов и деревьями видов у бактерий» . BMC Evolutionary Biology . 8 (1): 300. DOI : 10.1186 / 1471-2148-8-300 .
  14. Вэнь Цзюнь; Сюн, Чжицян; Не, Зе-Лонг; Мао, Ликай; Чжу, Ябин; Кан, Сянь-Чжао; Икерт-Бонд, Стефани М .; Геррат, Жан; Циммер, Элизабет А .; Фанг, Сяо-Донг; Кандела, Гектор (17 сентября 2013 г.). «Последовательности транскриптомов разрешают глубокие отношения семейства виноградных» . PLoS ONE . 8 (9): e74394. DOI : 10.1371 / journal.pone.0074394 . PMC 3775763 . PMID 24069307 .  

Внешние ссылки [ править ]

  • 1KITE
  • 1000 растений (1KP)
  • ДИОПТ
  • яйцоNOG
  • Ensembl Compara
  • ГенБанк
  • GreenPhylDB
  • HaMStR
  • HomoloGene
  • InParanoid
  • Мультипараноид
  • МЕТАФОРЫ
  • NCBI_BLAST
  • OMA
  • OrthoDB
  • OrthologID
  • OrthoMCL
  • OrtholugeDB
  • PhylomeDB
  • RefSeq
  • RevTrans_2.0
  • TreeFam
  • Trinity_de_novo_assembler