De Novo транскриптомного сборка является De Novo последовательности сборки метод создания транскрипта без помощи эталонного генома .
Вступление
В результате развития новых технологий секвенирования в период с 2008 по 2012 годы произошло значительное снижение стоимости секвенирования. Стоимость мегабазы и генома упала до 1/100 000 и 1/10 000 от цены соответственно. [1] До этого секвенировались только транскриптомы организмов, которые представляли широкий интерес и были полезны для научных исследований; тем не менее, разработанные в 2010 - х годах технологии высокопроизводительного секвенирования (также называемые секвенированием следующего поколения) экономичны и трудоемки, и круг организмов, изучаемых с помощью этих методов, расширяется. [2] Транскриптом впоследствии были созданы для нута , [3] планарий , [4] Parhyale hawaiensis , [5] , а также умами крокодил Нила , в кукурузном змеи , в бородатого дракона , и красными ушами слайдер , чтобы назвать только несколько. [6]
Изучение немодельных организмов может дать новое понимание механизмов, лежащих в основе «разнообразия увлекательных морфологических инноваций», которые сделали возможным изобилие жизни на планете Земля. [7] У животных и растений «инновации», которые нельзя исследовать на обычных модельных организмах, включают мимикрию , мутуализм , паразитизм и бесполое размножение . Сборка транскриптомов de novo часто является предпочтительным методом изучения немодельных организмов, поскольку это дешевле и проще, чем построение генома, а методы на основе ссылок невозможны без существующего генома. Таким образом, транскриптомы этих организмов могут выявить новые белки и их изоформы, которые участвуют в таких уникальных биологических явлениях.
De novo и сборка на основе ссылок
Набор собранных транскриптов позволяет проводить начальные исследования экспрессии генов. До разработки компьютерных программ сборки транскриптома данные транскриптома анализировались в первую очередь путем сопоставления с эталонным геномом. Хотя выравнивание генома является надежным способом характеристики последовательностей транскриптов, недостатком этого метода является его неспособность учитывать случаи структурных изменений транскриптов мРНК, такие как альтернативный сплайсинг . [8] Поскольку геном содержит сумму всех интронов и экзонов, которые могут присутствовать в транскрипте, сплайсированные варианты, которые не выстраиваются непрерывно по геному, могут не учитываться как фактические изоформы белка. Даже если эталонный геном доступен, необходимо выполнить сборку de novo , поскольку он может восстановить транскрипты, которые транскрибируются из сегментов генома, которые отсутствуют в сборке эталонного генома. [9]
Транскриптом против сборки генома
В отличие от уровней покрытия последовательностей генома, которые могут варьироваться случайным образом в результате содержания повторов в некодирующих интронных областях ДНК, уровни покрытия последовательностей транскриптома могут прямо указывать на уровни экспрессии генов. Эти повторяющиеся последовательности также создают неоднозначность в формировании контигов в сборке генома, в то время как неоднозначности в контигах сборки транскриптома обычно соответствуют сплайсированным изоформам или незначительным вариациям среди членов семейства генов. [8] Ассемблер генома нельзя напрямую использовать при сборке транскриптома по нескольким причинам. Во-первых, глубина секвенирования генома обычно одинакова для всего генома, но глубина транскриптов может варьироваться. Во-вторых, при секвенировании генома всегда секвенируются обе нити, но RNA-seq может быть специфичной для нити. В-третьих, сборка транскриптома более сложна, потому что варианты транскрипта из одного и того же гена могут иметь общие экзоны и их трудно однозначно разрешить. [9]
Методика
РНК-последовательность
Как только РНК извлекается и очищается из клеток, она отправляется на установку высокопроизводительного секвенирования, где сначала подвергается обратной транскрипции для создания библиотеки кДНК. Затем эта кДНК может быть фрагментирована на различные длины в зависимости от платформы, используемой для секвенирования. Каждая из следующих платформ использует разные типы технологий для секвенирования миллионов коротких чтений: 454 Sequencing , Illumina и SOLiD .
Алгоритмы сборки
Считываемые последовательности кДНК собираются в транскрипты с помощью программы сборки коротких считываний транскриптов. Скорее всего, некоторые аминокислотные вариации среди транскриптов, которые в остальном схожи, отражают разные изоформы белка. Также возможно, что они представляют разные гены в одном семействе генов или даже гены, которые разделяют только консервативный домен, в зависимости от степени вариации.
Доступен ряд программ сборки (см. Ассемблеры ). Хотя эти программы в целом были успешными в сборке геномов, сборка транскриптома представляет некоторые уникальные проблемы. В то время как высокий охват последовательностей для генома может указывать на присутствие повторяющихся последовательностей (и, таким образом, быть замаскированным), для транскриптома они могут указывать на изобилие. Кроме того, в отличие от секвенирования генома, секвенирование транскриптома может быть специфичным для цепи из-за возможности наличия как смысловых, так и антисмысловых транскриптов. Наконец, может быть трудно реконструировать и разделить все изоформы сплайсинга. [9]
Ассемблеры для короткого чтения обычно используют один из двух основных алгоритмов: графы перекрытия и графы де Брейна. [10] Графы перекрытия используются для большинства ассемблеров, предназначенных для чтения с последовательностью по Сэнгеру . Перекрытия между каждой парой считываний вычисляются и компилируются в граф, в котором каждый узел представляет собой одну считанную последовательность. Этот алгоритм требует больших вычислительных ресурсов, чем графы де Брейна, и наиболее эффективен при сборке меньшего числа операций чтения с высокой степенью перекрытия. [10] Графы Де Брейна выравнивают k-меры (обычно 25-50 п.н.) на основе сохранения последовательности k-1 для создания контигов. K-меры короче, чем длина чтения, что обеспечивает быстрое хеширование, поэтому операции в графах де Брейна, как правило, требуют меньших вычислительных затрат. [10]
Функциональная аннотация
Функциональная аннотация собранных транскриптов позволяет понять конкретные молекулярные функции, клеточные компоненты и биологические процессы, в которых участвуют предполагаемые белки. Blast2GO (B2G) позволяет интеллектуальному анализу данных на основе генных онтологий аннотировать данные последовательности, для которых еще нет аннотаций GO. Это исследовательский инструмент, который часто используется в исследованиях функциональной геномики немодельных видов. [11] Она работает путем взрывных работ , собранные контиги против нерезервированных баз данных белка (в NCBI), а затем аннотирование их на основе сходства последовательностей. GOanna - еще одна программа аннотаций GO, предназначенная для генных продуктов животных и сельскохозяйственных растений, которая работает аналогичным образом. Он является частью базы данных AgBase с тщательно подобранным общедоступным набором вычислительных инструментов для аннотации и анализа GO. [12] После аннотации KEGG (Киотская энциклопедия генов и геномов) позволяет визуализировать метаболические пути и сети молекулярного взаимодействия, зафиксированные в транскриптоме. [13]
Помимо аннотации для терминов GO, контиги также могут быть проверены на наличие открытых рамок считывания (ORF), чтобы предсказать аминокислотную последовательность белков, полученных из этих транскриптов. Другой подход - аннотировать белковые домены и определять наличие семейств генов, а не конкретных генов.
Проверка и контроль качества
Поскольку хорошо разрешенный эталонный геном доступен редко, качество собранных на компьютере контигов может быть проверено либо путем сравнения собранных последовательностей с чтениями, использованными для их генерации (без ссылок), либо путем выравнивания последовательностей найденных консервативных доменов генов. в транскриптах мРНК транскриптомов или геномов близкородственных видов (на основе ссылок). Такие инструменты, как Transrate [14] и DETONATE [15], позволяют проводить статистический анализ качества сборки этими методами. Другой метод - разработать праймеры для ПЦР для предсказанных транскриптов, а затем попытаться амплифицировать их из библиотеки кДНК. Часто исключительно короткие чтения отфильтровываются. Короткие последовательности (<40 аминокислот) вряд ли представляют функциональные белки, поскольку они не могут складываться независимо и образовывать гидрофобные ядра. [16]
В дополнение к этим показателям количественная оценка содержания гена может дать дополнительную информацию о качестве сборки. Для выполнения этого шага можно использовать инструменты, моделирующие ожидаемое генное пространство на основе консервативных генов, такие как BUSCO [17] . Для эукариот также можно использовать CEGMA [18] , хотя официально он больше не поддерживается с 2015 года [19].
Ассемблеры
Ниже приводится частичный сборник программного обеспечения для сборки, которое использовалось для создания транскриптомов, а также цитировалось в научной литературе.
SeqMan NGen
SeqMan NGen, часть конвейера программного обеспечения DNASTAR , включает de novo ассемблер транскриптомов для малых или больших наборов данных транскриптомов. SeqMan NGen использует запатентованный алгоритм, который использует RefSeq для идентификации и объединения транскриптов, и автоматически аннотирует собранные транскрипты с помощью запатентованного инструмента аннотации транскриптов DNASTAR для идентификации и выделения известных и новых генов. [20]
SOAPденово-Транс
SOAPdenovo-Trans - это ассемблер транскриптома de novo, унаследованный от инфраструктуры SOAPdenovo2, разработанный для сборки транскриптома с альтернативным сплайсингом и другим уровнем экспрессии. Ассемблер предоставляет более полный способ создания наборов полноразмерных транскриптов по сравнению с SOAPdenovo2.
Бархат / Оазисы
Алгоритм Velvet использует графы де Брейна для сборки стенограмм. При моделировании Velvet может продуцировать контиги длиной до 50 т.п.н. N50 с использованием данных о прокариотах и N50 размером 3 т.п.н. в бактериальных искусственных хромосомах (ВАС) млекопитающих. [21] Эти предварительные транскрипты передаются в Oases , которая использует парные данные о конце и длинном чтении для построения изоформ транскриптов. [22]
Транс-ABySS
ABySS - это ассемблер параллельных последовательностей с парными концами . Trans-ABySS (Assembly By Short Sequences) - это программный конвейер, написанный на Python и Perl для анализа контигов транскриптомов, собранных с помощью ABySS. Этот конвейер можно применять к сборкам, созданным в широком диапазоне значений k. Сначала он сокращает набор данных на меньшие наборы неизбыточных контигов и идентифицирует события сплайсинга, включая пропуск экзонов, новые экзоны, сохраненные интроны, новые интроны и альтернативный сплайсинг. Алгоритмы Trans-ABySS также способны оценивать уровни экспрессии генов, идентифицировать потенциальные сайты полиаденилирования , а также события слияния генов-кандидатов. [23]
Троица
Тринити [24] сначала делит данные о последовательности на несколько графов де Брейна , каждый из которых представляет вариации транскрипции в одном гене или локусе. Затем он извлекает изоформы сплайсинга полной длины и различает транскрипты, полученные из паралоговых генов из каждого графа отдельно. Trinity состоит из трех независимых программных модулей, которые используются последовательно для создания транскриптов:
- Inchworm собирает данные RNA-Seq в последовательности транскриптов, часто генерируя полноразмерные транскрипты для доминантной изоформы, но затем сообщает только об уникальных частях транскриптов с альтернативным сплайсингом.
- Chrysalis объединяет контиги Inchworm в кластеры и строит полные графы де Брейна для каждого кластера. Каждый кластер представляет полную сложность транскрипции для данного гена (или семейства или набора генов, которые имеют общую консервативную последовательность). Затем Chrysalis разделяет полный набор для чтения между этими отдельными графами.
- Затем Butterfly обрабатывает отдельные графы параллельно, отслеживая пути чтения внутри графа, в конечном итоге сообщая полноразмерные транскрипты для альтернативно сплайсированных изоформ и разделяя транскрипты, соответствующие паралогичным генам. [25]
Смотрите также
- Транскриптом
- Транскриптомика
- База данных человеческих транскриптомов для альтернативного сплайсинга (H-DBAS)
- UniGene
- Полные паразиты
- Секвенирование экзома
Рекомендации
- ^ Wettersrand, KA. «Стоимость секвенирования генома человека» . Genome.gov . Дата обращения 6 мая 2021 .
- ^ Surget-Groba Y, Монтойя-Бургос JI (2010). «Оптимизация сборки транскриптомов de novo из данных секвенирования следующего поколения» . Genome Res . 20 (10): 1432–1440. DOI : 10.1101 / gr.103846.109 . PMC 2945192 . PMID 20693479 .
- ^ Гарг Р., Патель Р.К., Тьяги А.К., Джайн М. (2011). «Сборка de novo транскриптома нута с использованием коротких чтений для открытия генов и идентификации маркеров» . ДНК Res . 18 (1): 53–63. DOI : 10,1093 / dnares / dsq028 . PMC 3041503 . PMID 21217129 .
- ^ Adamidi C; и другие. (2011). «Сборка de novo и проверка транскриптома планарий с помощью массивного параллельного секвенирования и протеомики дробовика» . Genome Res . 21 (7): 1193–1200. DOI : 10.1101 / gr.113779.110 . PMC 3129261 . PMID 21536722 .
- ^ Цзэн В; и другие. (2011). «Сборка de novo и характеристика транскриптома материнства и развития для появляющегося модельного ракообразного Parhyale hawaiensis» . BMC Genomics . 12 : 581. DOI : 10.1186 / 1471-2164-12-581 . PMC 3282834 . PMID 22118449 .
- ^ Tzika AC; и другие. (2011). «Рептильный транскриптом v1.0, краткий обзор транскриптома головного мозга пяти расходящихся клонов Sauropsida и филогенетическое положение черепах» (PDF) . EvoDevo . 2 (1): 19. DOI : 10,1186 / 2041-9139-2-19 . PMC 3192992 . PMID 21943375 .
- ^ Роуэн Б.А., Вейгель Д., Кениг Д. (2011). «Генетика развития и новые технологии секвенирования: рост немодельных организмов» . Клетка развития . 21 (1): 65–76. DOI : 10.1016 / j.devcel.2011.05.021 . PMID 21763609 .
- ^ а б Бирол I; и другие. (2009). «Сборка транскриптомов De novo с ABySS» . Биоинформатика . 25 (21): 2872–7. DOI : 10.1093 / биоинформатики / btp367 . PMID 19528083 .
- ^ а б в Мартин, Джеффри А .; Ван, Чжун (2011). «Сборка транскриптомов нового поколения» . Природа Обзоры Генетики . 12 (10): 671–682. DOI : 10.1038 / nrg3068 . PMID 21897427 . S2CID 3447321 .
- ^ а б в Illumina, Inc. (2010). «Сборка De Novo с использованием средств чтения Illumina» (PDF) .
- ^ Conesa A; и другие. (2005). «Blast2GO: универсальный инструмент для аннотации, визуализации и анализа в исследованиях функциональной геномики» . Биоинформатика . 21 (18): 3674–3676. DOI : 10.1093 / биоинформатики / bti610 . PMID 16081474 .
- ^ Маккарти FM; и другие. (2006). «AgBase: ресурс функциональной геномики для сельского хозяйства» . BMC Genomics . 7 : 229. DOI : 10.1186 / 1471-2164-7-229 . PMC 1618847 . PMID 16961921 .
- ^ «База данных KEGG PATHWAY» .
- ^ Transrate: понимание сборки транскриптома. http://hibberdlab.com/transrate
- ^ Ли Б; и другие. (2014). «Оценка сборок транскриптомов de novo по данным RNA-Seq» . Геномная биология . 15 (12): 553. DOI : 10.1186 / s13059-014-0553-5 . PMC 4298084 . PMID 25608678 .
- ^ Karplus, K. pdb-1: Минимальная длина белковой последовательности. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html .
- ^ Сеппи, Матье; Манни, Мосе; Здобавов, Евгений М. (2019), Коллмар, Мартин (ред.), «BUSCO: Оценка сборки генома и полноты аннотации» , Gene Prediction , Нью-Йорк, Нью-Йорк: Springer New York, 1962 , стр. 227–245, doi : 10.1007 / 978-1-4939-9173-0_14 , ISBN 978-1-4939-9172-3, PMID 31020564 , получено 2021-04-24
- ^ Parra, G .; Bradnam, K .; Корф, И. (2007-05-01). «CEGMA: конвейер для точной аннотации основных генов в геномах эукариот» . Биоинформатика . 23 (9): 1061–1067. DOI : 10.1093 / биоинформатики / btm071 . ISSN 1367-4803 . PMID 17332020 .
- ^ «ЦЕГМА» . korflab.ucdavis.edu . Проверено 24 апреля 2021 .
- ^ «ДНАСТАР» .
- ^ Зербино Д.Р., Бирни Э (2008). "Velvet: Алгоритмы для сборки короткого чтения de novo с использованием графов де Брейна" . Genome Res . 18 (5): 821–829. DOI : 10.1101 / gr.074492.107 . PMC 2336801 . PMID 18349386 .
- ^ "Oases: ассемблер транскриптомов de novo для очень коротких чтений" .
- ^ «Trans-ABySS: анализировать данные транскриптома, собранные ABySS multi-k» .
- ^ «Троица» . 2018-11-24.
- ^ «Trinity RNA-Seq Assembly - программа для реконструкции полноразмерных транскриптов и альтернативно сплайсированных изоформ» . Архивировано из оригинала 12 июля 2011 года.