В биоинформатики , A ДНК ошибка чтение возникает , когда последовательность Ассемблер изменяет одну ДНК базы для другой базы . Чтения из ассемблера последовательностей затем можно использовать для создания графа де Брейна , который можно использовать различными способами для поиска ошибок .
Обзор
В графе де Брейна существует возможность 4 ^ k различных узлов для организации генома . Число узлов, используемых для создания графа, может быть уменьшено, если рассматривать только k-меры, обнаруженные в интересующей цепи ДНК . Учитывая последовательность 1, можно определить узлы размера 7 или 7-меров, которые будут в графе. Эти 7-меры затем создают график, показанный на рисунке 1. [1]
График показан на рисунке 1 является очень простым вариантом того , что график может выглядеть следующим образом . [2] Этот граф формируется путем связывания последних 6 элементов 7-мера с узлом, первые 6 элементов которого совпадают. Рисунок 1 является наиболее упрощенным графом де Брейна , поскольку каждый узел имеет ровно один путь в него и один выход. В большинстве случаев графы будут иметь более одного ребра, направленного к узлу, и / или более одного ребра, выходящего из узла. Это происходит из-за способа подключения узлов. Узлы соединены ребрами, указывающими на узлы, если последние k-1 элементов k -мера совпадают с первыми k-1 элементами любого узла. Это позволяет сформировать многогранный граф де Брейна . Эти более сложные графики возникают из-за ошибок чтения или вариаций цепей ДНК. Обе причины затрудняют определение правильной структуры ДНК и того, что вызывает различия. Поскольку большинство нитей ДНК, вероятно, будут содержать ошибки чтения и вариации, ученые надеются использовать процесс сборки, который может объединять узлы графа, когда они однозначно соединяются после того, как граф был очищен от вершин и ребер, созданных ошибками. [3]
Советы и пузыри
Когда график формируется из последовательных данных, ошибки чтения образуют подсказки и пузыри. Подсказка , где произошла ошибка во время процесса секвенирования и вызвала график до конца преждевременно и включает в себя как правильное и неправильное K -mers. Пузырь также образуется , когда происходит ошибка во время процесса считывания последовательности; однако, где бы ни произошла ошибка, k -mer читает путь для повторного подключения к основному графу и продолжения работы, как будто ничего не произошло. Если на графике де Брейна, сформированном на основе данных, присутствуют наконечники и пузырьки , их можно удалить только в том случае, если возникновение наконечника или пузырька вызвано ошибкой. Когда ученые используют эталонный геном , они могут быстро и легко определить, где находятся подсказки, сравнив график эталонного генома и график последовательности. Если эталонного генома нет, подсказки удаляются путем прослеживания ветвей в обратном направлении до тех пор, пока не будет найдена двусмысленная точка. Затем наконечники удаляются только в том случае, если длина ответвления, содержащего наконечник, короче установленного порогового значения. [3] Процесс удаления пузырей немного сложнее. Первое, что нужно сделать, это определить начало пузыря. Отсюда следует каждый путь от начала пузыря до точки повторного соединения. Точка переподключения может быть разной для каждого пути. Поскольку от начального узла могут быть пути разной длины, путь с меньшим покрытием удаляется. [3]
Пример
Учитывая последовательность любой длины, первый шаг, который необходимо сделать, - это ввести последовательность в программу секвенирования, секвенировать ее и получить считывание пары оснований (bp) определенной длины. Поскольку не существует полностью точной программы секвенирования, всегда будут считывания, содержащие ошибки. Наиболее распространенным методом секвенирования является метод дробовика , который, скорее всего, используется в последовательности 2. После того, как метод выбран, вы должны указать длину считывания битов, которую вы хотите вернуть. В случае последовательности 2 он вернул 7-битные чтения, при этом все ошибки, допущенные во время процесса, были отмечены красным. [4]
Как только чтения получены, они хешируются в k -меры. Затем k -меры записываются в таблицу с указанием того, сколько раз каждый k -мер появлялся при считывании. В этом примере каждое чтение хешировалось на 4- мерные, и если была ошибка, она записывалась красным цветом. Затем были зарегистрированы все 4 -мерные группы с их частотой в следующей таблице.
ACAG (5X) | A C GC | AGA A | AGAC (9X) | АГАГ (9X) | АГАТ (8X) |
AGGC (16X) | СЛКП (7X) | ATCC (7X) | ATGA (8X) | CCGA (7X) | CGA C |
CGAG (8X) | CGAT (6X) | ТЭГ C (2X) | CT C T | CTTT (8X) | GACA (8X) |
GA C G | ГАГА (12X) | ГАГГ (16X) | GATG (5X) | GATC (8X) | GAT T |
GCT C (2X) | GCTT (8X) | GGCT (11X) | GTCG (9X) | ТАГА (16X) | TAGT (3X) |
TCCG (7X) | TCGA (10X) | T C TA (2X) | ТГАГ (9X) | TTAG (12X) | TTTA (8X) |
Каждая отдельная ячейка таблицы затем образует узел, позволяющий сформировать граф де Брейна из заданных k -меров. На рисунке 2 идентифицируются линейные участки, а затем формируется другой график, рис. 3, где линейные участки стали единым узлом другого k- мерного размера, что позволяет получить более сжатый график. На этом упрощенном графике легко идентифицировать различные подсказки и пузыри, как показано на рисунке 4. Эти пузыри и подсказки затем можно удалить, так как мы можем определить, что они были сформированы из-за ошибок при чтении bp, давая нам структуру графика. который должен точно и полностью отражать исходную последовательность. [4] Если вы проследите за графиком де Брейна, показанным на рисунке 5, вы увидите, что образованная последовательность действительно соответствует последовательности ДНК, приведенной в последовательности 2.
Сравнение двух цепей ДНК
При сравнении двух цепей ДНК для выявления ошибок часто используются цветные графики де Брейна . Эти ошибки, часто полиморфизмы , вызывают образование пузырей, подобных упомянутым выше. В настоящее время существует четыре основных алгоритма, используемых для обобщения данных и обнаружения пузырей. Эти четыре алгоритма расширяют графы де Брейна, позволяя раскрашивать узлы и ребра графа в соответствии с образцами, из которых они наблюдались [5]
Вызов пузыря
Простейшее использование цветного графа де Брейна известно как алгоритм вызова пузыря. Этот алгоритм ищет и находит пузырьки на геноме, которые отличаются от оригинала. Эти пузыри должны быть «чистыми» или просто отличаться от эталонного генома, но не могут быть вызваны делециями оснований ДНК. Этот алгоритм может иметь высокий процент ложных срабатываний , так как трудно разделить пузыри, вызванные повторением и вариантом; однако часто существует эталонный геном, который помогает повысить надежность . Эталонный геном также помогает в обнаружении вариантов и важен для обнаружения вариантных сайтов. [5] Недавно ученые открыли способ использования алгоритма вызова пузырьков с обнаружением вариаций числа копий, чтобы обеспечить возможность беспристрастного обнаружения этих вариаций в будущем [6] [7]
Расхождение пути
При рассмотрении сложных вариантов вероятность того, что они получат чистый контиг, очень мала . Поскольку это происходит чаще всего, алгоритм расхождения путей полезен, особенно при рассмотрении того, где происходят делеции, а вариант настолько сложен, что ограничивается эталонным аллелем . Когда образуется пузырь, алгоритм расхождения пути используется наиболее часто и позволяет удалять обнаруженные пузырьки в очень систематической процедуре. Сначала алгоритм определяет каждую точку расхождения. Затем из каждой точки расхождения трассируются нити, образующие пузырь, чтобы найти, где соединяются два пути после n узлов. Если два пути соединяются, то путь с меньшим покрытием удаляется и сохраняется в файле. [3] [8]
Анализ множественных проб
Использование нескольких образцов значительно увеличивает мощность и частоту ложного обнаружения вариантов обнаружения. В простейших случаях образцы объединяются в группу одного цвета, и данные анализируются, как описано ранее. Однако, поддерживая отдельные цвета для каждого набора образцов, появляется дополнительная информация о том, как были сформированы пузыри, ошибочно или в результате повторов. [5] В 1997 году технологический отдел Genzyme Genetics во Фрамингеме , штат Массачусетс, разработал новый подход, который обеспечил прорыв в борьбе с пузырями с использованием мультиплексного аллель-специфического диагностического теста (MASDA). Эта программа сочетает прямой дот-блоттинг , комплексную одновременную гибридизацию зондов и прямое обнаружение мутаций, чтобы помочь решить двойную проблему анализа нескольких образцов. [9]
Генотипирование
Цветные графики де Брёйна можно использовать для генотипирования любого образца ДНК в известных локусах , даже если охват менее чем достаточен для сборки вариантов. [5] Первым шагом к этому процессу является построение графика референсного аллеля , известных вариантов и данных из образца. Затем алгоритм вычисляет вероятность каждого генотипа и учитывает структуру графа, как локальной, так и общегеномной последовательности. Затем это обобщается на несколько аллельных типов и помогает определять сложные и сложные варианты генотипа. [5] Этот алгоритм используется часто, так как не образуются пузыри, с которыми нужно иметь дело. Это также напрямую помогает находить более сложные проблемы в генах более прямым образом, чем любой из трех алгоритмов, упомянутых ранее. [10]
Рекомендации
- ^ Механизмы рекомбинации ДНК и перестройки генома: пересечение между гомологичной рекомбинацией, репликацией ДНК и репарацией ДНК . Академическая пресса. 2018-03-06. ISBN 978-0-12-813980-6.
- ^ Де Брейн График небольшой последовательности . (2011). Получено 7 февраля 2015 г. с Homolog.us - Биоинформатика: http://www.homolog.us/Tutorials/index.php?p=2.1&s=1 Архивировано 30 октября 2014 г.на Wayback Machine
- ^ a b c d Симпсон, Дж. Т., Вонг, К., Джекман, С. Д., Шейн, Дж. Э., Джонс, С. Дж., и Бирол, И. (2009). ABySS: параллельный ассемблер для данных короткой последовательности чтения. Геномные исследования, 19 (6), 1117-1123
- ^ a b Фличек, П., и Бирни, Э. (2009). Смысл из последовательности гласит: методы выравнивания и сборки. Природные методы, 6 , S6-S12. Рисунок 3
- ^ а б в г д Икбал, З., Каккамо, М., Тернер, И., Фличек, П., и Маквин, Г. (2012). Сборка de novo и генотипирование вариантов с использованием цветных графов де Брейна. Природная генетика, 44 (2), 226-232
- ^ Nijkamp, JF, ван ден Брука, MA, Geertman, СОУ, Reinders, MJ, Daran, СМГ, и де Риддер, D. (2012). De novo обнаружение изменения количества копий при совместной сборке. Биоинформатика, 28 (24), 3195-3202
- ^ Меснер, Ларри Д.; Валсакумар, Вина; Цеслик, Марцин; Пикин, Ребекка; Hamlin, Joyce L .; Бекиранов, Стефан (ноябрь 2013 г.). «Пузырьковый анализ генома человека выявляет различные механизмы, опосредованные хроматином, для регуляции раннего и позднего происхождения» . Геномные исследования . 23 (11): 1774–1788. DOI : 10.1101 / gr.155218.113 . ISSN 1088-9051 . PMC 3814878 . PMID 23861383 .
- ^ «Расхождение путей - знания в области управления проектами» . Проверено 9 октября 2020 .
- ^ Shuber А.П., Michalowsky Л.А., Nass, GS, Skoletsky, J., Рассрочка, LM, Kotsopoulos, SK, ... & Клингер, KW (1997). Высокопроизводительный параллельный анализ сотен образцов пациентов на наличие более 100 мутаций в генах нескольких заболеваний. Молекулярная генетика человека, 6 (3), 337-347
- ^ «Генотипирование - обзор | Темы ScienceDirect» . www.sciencedirect.com . Проверено 9 октября 2020 .