Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Последовательность ATGG имеет два 3-мера: ATG и TGG.

В биоинформатики , K -mers является подпоследовательностью длины , содержащаяся в биологической последовательности. В первую очередь используются в контексте компьютерной геномики и анализа последовательностей , в котором k -меры состоят из нуклеотидов ( например, A, T, G и C), k -меры используются для сборки последовательностей ДНК , [1] улучшают гетерологичные экспрессия генов , [2] [3] идентификация видов в метагеномных образцах , [4] и создание аттенуированные вакцины . [5] Обычно термин k -мер относится ко всем подпоследовательностям последовательности длины , так что последовательность AGAT будет иметь четыре мономера (A, G, A и T), три 2-мера (AG, GA, AT ), два 3-мерных (AGA и GAT) и один 4-мерный (AGAT). В более общем случае последовательность длины будет иметь k -меры и общее количество возможных k -меров, где - количество возможных мономеров (например, четыре в случае ДНК ).

Введение [ править ]

k -меры - это просто подпоследовательности длины . Например, все возможные k -меры последовательности ДНК показаны ниже:

Пример 8-мерного спектра для E. coli, сравнивающего частоту 8-мерных ( т. Е. Множественности ) с их количеством встречаемости.

Метод визуализации k -меров, спектр k -меров , показывает множественность каждого k -мера в последовательности по сравнению с количеством k -меров с этой множественностью. [6] Количество мод в k -мерном спектре для генома вида варьируется, при этом большинство видов имеет одномодальное распределение. [7] Однако все млекопитающие имеют мультимодальное распространение. Количество мод в k -мерном спектре также может варьироваться в зависимости от области генома: у людей есть унимодальные k -мерные спектры в 5 'UTR и экзонах, но мультимодальные спектры в3 'НТО и интроны .

Силы, влияющие на частоту k -меров ДНК [ править ]

На частоту использования k -меров влияют многочисленные силы, действующие на нескольких уровнях, которые часто находятся в конфликте. Важно отметить, что k -меры для более высоких значений k также подвержены влиянию сил, влияющих на более низкие значения k . Например, если 1-мер A не встречается в последовательности, ни один из 2-мер, содержащих A (AA, AT, AG и AC), также не появится, тем самым связывая эффекты различных сил.

k = 1 [ редактировать ]

Когда k = 1, имеется четыре k- мера ДНК , то есть A, T, G и C. На молекулярном уровне существует три водородных связи между G и C, тогда как между A и T. их всего две. Связи в результате дополнительной водородной связи (и более сильных стэкинг-взаимодействий) более термически стабильны, чем связи AT. [8] Млекопитающие и птицы имеют более высокое отношение Gs и Cs к As и Ts ( содержание GC ), что привело к гипотезе о том, что термическая стабильность была движущим фактором изменения содержания GC. [9]Однако, будучи многообещающей, эта гипотеза не выдержала проверки: анализ среди множества прокариот не показал никаких доказательств того, что содержание GC коррелирует с температурой, как предсказывала гипотеза тепловой адаптации. [10] Действительно, если естественный отбор должны были быть движущей силой изменения ОГО-контент, что потребовало бы , что единичные нуклеотидные замены , которые часто молчат , чтобы изменить пригодность организма. [11]

Скорее, текущие данные свидетельствуют о том, что конверсия генов, обусловленная GC (gBGC), является движущим фактором вариаций в содержании GC. [11] gBGC - это процесс, который происходит во время рекомбинации, который заменяет Gs и Cs на As и Ts. [12] Этот процесс, хотя и отличается от естественного отбора, тем не менее может оказывать избирательное давление на ДНК, склонную к фиксации замен GC в геноме. Следовательно, gBGC можно рассматривать как «самозванца» естественного отбора. Как и следовало ожидать, содержание GC больше на сайтах, подвергающихся большей рекомбинации. [13] Кроме того, организмы с более высокой скоростью рекомбинации демонстрируют более высокое содержание GC, что соответствует предсказанным эффектам гипотезы gBGC. [14]Интересно, что gBGC, по-видимому, не ограничивается эукариотами . [15] Бесполые организмы, такие как бактерии и археи, также подвергаются рекомбинации посредством преобразования генов, процесса замены гомологичных последовательностей, приводящего к множеству идентичных последовательностей по всему геному. [16] То, что рекомбинация способна повышать содержание GC во всех сферах жизни, предполагает, что gBGC универсально консервативен. Является ли gBGC (в основном) нейтральным побочным продуктом молекулярного механизма жизни или он сам находится в процессе отбора, еще предстоит определить. Точный механизм и эволюционное преимущество или недостаток gBGC в настоящее время неизвестны. [17]

k = 2 [ редактировать ]

Несмотря на сравнительно большое количество литературы, в которой обсуждаются систематические ошибки содержания GC, о динуклеотидных отклонениях написано относительно мало. Известно, что эти динуклеотидные смещения относительно постоянны по всему геному, в отличие от содержания GC, которое, как видно выше, может значительно варьироваться. [18] Это важное открытие, которое нельзя упускать из виду. Если бы динуклеотидное смещение подвергалось давлению, возникающему в результате трансляции , тогда были бы разные паттерны динуклеотидного смещения в кодирующих и некодирующих областях, обусловленные сниженной эффективностью трансляции некоторых динуклеотидов. [19]Поскольку это не так, можно сделать вывод, что силы, модулирующие динуклеотидное смещение, не зависят от трансляции. Еще одним свидетельством против трансляционного давления, влияющего на динуклеотидную предвзятость, является тот факт, что динуклеотидные предубеждения вирусов, которые в значительной степени зависят от трансляционной эффективности, формируются их вирусным семейством больше, чем их хозяевами, чьи трансляционные механизмы захватывают вирусы. [20]

Счетчик увеличение содержания GC-gBGC является подавлением CG , что снижает частоту CG 2-меров за счетом дезаминирования из метилированных динуклеотидов CG, в результате замен РКИ с TGS, тем самым снижая GC-содержание. [21] Это взаимодействие подчеркивает взаимосвязь между силами, действующими на k -меры при различных значениях k.

Один интересный факт о динуклеотидном смещении заключается в том, что он может служить измерением «расстояния» между филогенетически схожими геномами. Геномы пар близкородственных организмов имеют больше сходных динуклеотидных предубеждений, чем между парами более отдаленно связанных организмов. [18]

k = 3 [ редактировать ]

Есть двадцать природных аминокислот , которые используются для создания белков, кодируемых ДНК. Однако нуклеотидов всего четыре. Следовательно, не может быть однозначного соответствия между нуклеотидами и аминокислотами. Точно так же имеется 16 2-меров, что также недостаточно, чтобы однозначно представить каждую аминокислоту. Однако в ДНК 64 различных 3-мера, что достаточно для уникального представления каждой аминокислоты. Эти неперекрывающиеся 3-меры называются кодонами . Хотя каждый кодон отображается только на одну аминокислоту, каждая аминокислота может быть представлена ​​несколькими кодонами . Таким образом, одна и та же аминокислотная последовательность может иметь несколько представлений ДНК. Интересно, что каждый кодон аминокислоты не используется в равных пропорциях. [22]Это называется смещением использования кодонов (CUB). Когда k = 3, необходимо различать истинную 3-мерную частоту и CUB. Например, последовательность ATGGCA содержит четыре 3-мерных слова (ATG, TGG, GGC и GCA), в то время как содержит только два кодона (ATG и GCA). Тем не менее, CUB является основным движущим фактором смещения использования 3-мер (на его долю приходится до из них, поскольку ⅓ k -меров в кодирующей области являются кодонами) и будет основным объектом внимания этого раздела.

Точная причина различий между частотами различных кодонов до конца не изучена. Известно, что предпочтение кодонов коррелирует с обилием тРНК, при этом кодоны, соответствующие более многочисленным тРНК, соответственно встречаются чаще [22] и что более высоко экспрессируемые белки демонстрируют больше CUB. [23] Это говорит о том, что выбор по эффективности или точности перевода является движущей силой вариации CUB.

k = 4 [ редактировать ]

Подобно эффекту, наблюдаемому при динуклеотидном смещении, тетрануклеотидные смещения филогенетически сходных организмов более похожи, чем у менее близкородственных организмов. [4] Точная причина вариации тетрануклеотидного смещения не совсем понятна, но была выдвинута гипотеза, что это результат поддержания генетической стабильности на молекулярном уровне. [24]

Приложения [ править ]

Частота набора k -меров в геноме вида, в геномной области или в классе последовательностей может использоваться в качестве «сигнатуры» лежащей в основе последовательности. Сравнение этих частот в вычислительном отношении проще, чем выравнивание последовательностей , и является важным методом анализа последовательностей без выравнивания . Его также можно использовать в качестве анализа первого этапа перед выравниванием.

Сборка последовательности [ править ]

На этом рисунке показан процесс разделения считываний на более мелкие k -меры (в данном случае 4-мерные), чтобы их можно было использовать в графе Де Брюйна. (A) Показывает начальный сегмент секвенируемой ДНК. (B) Показывает чтения, которые были сделаны в результате секвенирования, а также показывает, как они совпадают. Проблема с этим выравниванием заключается в том, что они перекрываются k-2, а не k-1 (что необходимо в графах Де Брёйна). (C) Показывает, что показания разделены на более мелкие 4-мерные. (D) отбрасывает повторяющиеся 4-мерные, а затем показывает их выравнивание. Обратите внимание, что эти k -меры перекрываются на k-1 и затем могут быть использованы в графе Де Брейна.

При сборке последовательностей k -меры используются при построении графов Де Брейна . [25] [26] Для создания графа Де Брёйна k -меры, хранящиеся в каждом ребре с длиной, должны перекрывать другую строку на другом ребре , чтобы создать вершину . Чтения, сгенерированные в результате секвенирования следующего поколения , обычно будут иметь разную длину чтения. Например, читает IlluminaТехнология секвенирования захватывает 100-мерные показания. Однако проблема с секвенированием состоит в том, что фактически генерируются только небольшие фракции из всех возможных 100-меров, которые присутствуют в геноме. Это связано с ошибками чтения, но, что более важно, просто с простыми дырами в покрытии, которые возникают во время секвенирования. Проблема в том, что эти малые доли возможных k -меров нарушают ключевое предположение графов Де Брёйна о том, что все считанные k -меры должны перекрывать соседний k -мер в геноме на (что не может произойти, если все возможные k -меры нет).

Решение этой проблемы состоит в том, чтобы разбить эти считывания размера k -меров на более мелкие k -меры, чтобы полученные меньшие k -меры представляли все возможные k -меры этого меньшего размера, которые присутствуют в геноме. [27] Кроме того, разделение k -меров на меньшие размеры также помогает решить проблему разной начальной длины чтения. В этом примере пять считываний не учитывают все возможные 7-меры генома, и поэтому граф Де Брёйна не может быть создан. Но когда они разделены на 4-мерные, полученных подпоследовательностей достаточно, чтобы реконструировать геном с помощью графа Де Брёйна.

Помимо того, что k -меры используются непосредственно для сборки последовательностей, k -меры также можно использовать для обнаружения неправильной сборки генома путем идентификации чрезмерно представленных k -меров, что предполагает наличие повторяющихся последовательностей ДНК , которые были объединены. [28] Кроме того, k -меры также используются для обнаружения бактериального заражения во время сборки генома эукариот, подход, заимствованный из области метагеномики. [29] [30]

Выбор k -mer [ править ]

Выбор размера k -мера имеет много различных эффектов на сборку последовательности. Эти эффекты сильно различаются для k -меров меньшего и большего размера . Следовательно, необходимо понять различные размеры k- мер, чтобы выбрать подходящий размер, который уравновешивает эффекты. Влияние размеров показано ниже.

Меньшие k- мерные размеры [ править ]
  • Более низкий к размеру -mer будет уменьшить количество ребер , сохраненных в графике, и как таковые, поможет уменьшить объем пространства , необходимое для последовательности ДНК магазина.
  • Меньшие размеры увеличивают вероятность перекрытия всех k -меров и, как таковые, наличия подпоследовательностей, необходимых для построения графа Де Брёйна. [31]
  • Однако, имея k -меры меньшего размера , вы также рискуете иметь много вершин в графе, ведущих в один k-мер. Следовательно, это затруднит реконструкцию генома, поскольку существует более высокий уровень неоднозначности пути из-за большего количества вершин, которые необходимо будет пересечь.
  • Информация теряется по мере того, как k -меры становятся меньше.
    • Например, вероятность AGTCGTAGATGCTG ниже, чем ACGT, и, как таковая, содержит больший объем информации (см. Энтропию (теория информации) для получения дополнительной информации).
  • У меньших k -меров также есть проблема, заключающаяся в том, что они не могут разделить области ДНК, где встречаются маленькие микросателлиты или повторы. Это связано с тем, что k -меры меньшего размера будут стремиться полностью находиться в пределах повторяющейся области, и поэтому трудно определить количество фактически имевших место повторений.
    • Например, для подпоследовательности ATGTGTGTGTGTGTACG количество повторений TG будет потеряно, еслиразмер k -меров будет меньше 16. Это связано с тем, что большинство k -меров будут находиться в повторяющейся области и могут быть просто отброшены как повторы одного и того же k -мера, вместо того, чтобы ссылаться на количество повторов.
Высшие k- мерные размеры [ править ]
  • Наличие k -меров большего размера увеличит количество ребер в графе, что, в свою очередь, увеличит объем памяти, необходимый для хранения последовательности ДНК.
  • При увеличении размера k -меров количество вершин также будет уменьшаться. Это поможет при построении генома, поскольку на графике будет меньше путей. [31]
  • Более крупные k -меры также имеют более высокий риск не иметь внешних вершин из каждого k-мер. Это происходит из-за того, что более крупные k -меры увеличивают риск того, что он не будет перекрываться с другим k -мером . Следовательно, это может привести к разрывам при чтении и, как таковое, может привести к большему количеству более мелких контигов .
  • Большие размеры k- мер помогают решить проблему небольших повторяющихся участков. Это связано с тем, что k -мер будет содержать баланс повторяющейся области и прилегающих последовательностей ДНК (при условии, что они имеют достаточно большой размер), что может помочь уменьшить количество повторений в этой конкретной области.

Генетика и геномика [ править ]

Что касается болезни, то для обнаружения генетических островков, связанных с патогенностью, применялось динуклеотидное смещение. [11] Предыдущая работа также показала, что тетрануклеотидные предубеждения способны эффективно обнаруживать горизонтальный перенос генов как у прокариот [32], так и у эукариот. [33]

Еще одно применение k -меров - таксономия на основе геномики. Например, GC-контент был использован для различения видов Erwinia с умеренным успехом. [34] Аналогично прямому использованию GC-содержания для таксономических целей является использование T m , температуры плавления ДНК. Поскольку связи GC более термически стабильны, последовательности с более высоким содержанием GC демонстрируют более высокую T m . В 1987 году Специальный комитет по согласованию подходов к бактериальной систематике предложил использовать ΔT m в качестве фактора при определении границ видов в рамках концепции филогенетических видов., хотя это предложение, похоже, не получило поддержки в научном сообществе. [35]

Другие приложения в генетике и геномике включают:

  • Количественное определение изоформ РНК по данным RNA-seq [36]
  • Классификация митохондриальной гаплогруппы человека [37]
  • Обнаружение сайтов рекомбинации в геномах [38]
  • Оценка генома размера с использованием K -mer частоты против K -mer глубины [39] [40]
  • Характеристика CpG-островков посредством фланкирующих областей [41] [42]
  • Обнаружение de novo повторяющейся последовательности, такой как переносной элемент [43]
  • Штрих-кодирование  видов ДНК . [7] [44]
  • Характеристика мотивов белок-связывающих последовательностей [45]
  • Идентификация мутации или полиморфизма с использованием данных секвенирования следующего поколения [46]

Метагеномика [ править ]

Частота k- мер и вариация спектра широко используются в метагеномике как для анализа [47] [48], так и для бинирования. При биннинге задача состоит в том, чтобы разделить считанные данные секвенирования в «бункеры» считываний для каждого организма (или оперативной таксономической единицы ), которые затем будут собраны. TETRA - это замечательный инструмент, который берет метагеномные образцы и объединяет их в организмы на основе их тетрануклеотидных ( k = 4) частот. [49]  Другими инструментами, которые аналогичным образом полагаются на частоту k- мер для метагеномного биннинга, являются CompostBin ( k = 6), [50] PCAHIER, [51] PhyloPythia (5 ≤ k ≤ 6), [52]CLARK ( k ≥ 20), [53] и TACOA (2 ≤  k  ≤ 6). [54] Недавние разработки также применили глубокое обучение к метагеномному объединению с использованием k -меров. [55]

Другие приложения в метагеномике включают:

  • Восстановление рамок чтения из необработанных чтений [56]
  • Оценка видовой численности в метагеномных образцах [57]
  • Определение того, какие виды присутствуют в пробах [58] [59]
  • Идентификация биомаркеров болезней по образцам [60]

Биотехнология  [ править ]

Изменение частот k -меров в последовательностях ДНК широко используется в биотехнологических приложениях для контроля эффективности трансляции. В частности, он использовался как для повышения, так и для снижения уровня продукции белка.

Что касается увеличения продукции белка, то снижение частоты неблагоприятных динуклеотидов было использовано для повышения скорости синтеза белка. [61] Кроме того, систематическая ошибка использования кодонов была изменена для создания синонимичных последовательностей с более высокой скоростью экспрессии белка. [2] [3] Аналогичным образом, оптимизация пар кодонов, комбинация динуцелотида и оптимизации кодонов, также успешно использовалась для увеличения экспрессии. [62]

Наиболее изученное применение k -меров для снижения эффективности трансляции - это манипуляции с парами кодонов для ослабления вирусов с целью создания вакцин. Исследователи смогли перекодировать вирус денге , вирус, вызывающий лихорадку денге , таким образом, что смещение его пар кодонов больше отличалось от предпочтения использования кодонов млекопитающими, чем от вируса дикого типа. [63] Несмотря на то, что кодированный вирус содержит идентичную аминокислотную последовательность, он продемонстрировал значительно ослабленную патогенность , вызывая сильный иммунный ответ. Этот подход также эффективно использовался для создания вакцины против гриппа [64], а также вакцины против вируса герпеса Марека (MDV). [65]Примечательно, что манипуляции со смещением пар кодонов, используемые для ослабления MDV, не привели к эффективному снижению онкогенности вируса, подчеркивая потенциальную слабость этого подхода в биотехнологических приложениях. На сегодняшний день ни одна деоптимизированная вакцина с парными кодонами не одобрена для использования.

Две последующие статьи помогают объяснить фактический механизм, лежащий в основе деоптимизации пар кодонов: смещение пар кодонов является результатом смещения динуклеотидов. [66] [67] Изучая вирусы и их хозяев, обе группы авторов смогли сделать вывод, что молекулярный механизм, который приводит к аттенуации вирусов, - это увеличение количества динуклеотидов, плохо подходящих для трансляции.

Содержание GC из-за его влияния на точку плавления ДНК используется для прогнозирования температуры отжига в ПЦР , другом важном биотехнологическом инструменте.

Реализация [ править ]

Псевдокод [ править ]

Определение возможных k -меров чтения может быть выполнено простым циклом по длине строки на единицу и извлечением каждой подстроки длины . Псевдокод для этого выглядит следующим образом:

Процедура к-меры (строка далее, целое число , к) является L ← длина (сек) arr ← новый массив из L - k + 1 пустых строк // перебираем количество  k-мер  в seq, // сохраняем n-й k-мер в выходном массиве для n ← от 0 до L - k + 1 эксклюзивное do arr [n] ← подпоследовательность последовательности от буквы n включительно до буквы n + k исключая возвращение обр

В конвейерах биоинформатики [ править ]

Поскольку число k -меров растет экспоненциально для значений k , подсчет k -меров для больших значений k (обычно> 10) представляет собой вычислительно трудную задачу. Хотя простые реализации, такие как приведенный выше псевдокод, работают для малых значений k , их необходимо адаптировать для приложений с высокой пропускной способностью или когда k велико. Для решения этой проблемы были разработаны различные инструменты:

  • Jellyfish использует многопоточную хэш-таблицу без блокировок для подсчета k- мер и имеет привязки Python , Ruby и Perl [68]
  • KMC - это инструмент для подсчета k- мер, который использует многодисковую архитектуру для оптимизации скорости [69]
  • Gerbil использует подход хеш-таблицы, но с дополнительной поддержкой ускорения графического процессора [70]
  • K-mer Analysis Toolkit (KAT) использует модифицированную версию Jellyfish для анализа количества k- мер [6]

См. Также [ править ]

  • Олигонуклеотид
  • Геномная подпись

Ссылки [ править ]

  • Часть содержимого этой статьи было скопировано из K-mer в вики-сайте PLOS, который доступен по лицензии Creative Commons Attribution 2.5 Generic (CC BY 2.5) .
  1. ^ Compeau, Филипп ЕС; Певзнер, Павел А; Теслер, Гленн (ноябрь 2011 г.). «Как применить графики де Брейна к сборке генома» . Природа Биотехнологии . 29 (11): 987–991. DOI : 10.1038 / nbt.2023 . ISSN  1087-0156 . PMC  5531759 . PMID  22068540 .
  2. ^ a b Уэлч, Марк; Говиндараджан, Шридхар; Несс, Джон Э .; Вильялобос, Алан; Герни, Остин; Миншалл, Джереми; Густафссон, Клас (14 сентября 2009 г.). Кудла, Гжегож (ред.). «Параметры дизайна для контроля экспрессии синтетических генов в Escherichia coli» . PLOS ONE . 4 (9): e7002. Bibcode : 2009PLoSO ... 4.7002W . DOI : 10.1371 / journal.pone.0007002 . ISSN 1932-6203 . PMC 2736378 . PMID 19759823 .   
  3. ^ a b Густафссон, Клаас; Говиндараджан, Шридхар; Миншалл, Джереми (июль 2004 г.). «Кодоновое смещение и экспрессия гетерологичного белка». Тенденции в биотехнологии . 22 (7): 346–353. DOI : 10.1016 / j.tibtech.2004.04.006 . PMID 15245907 . 
  4. ^ a b Perry, Scott C .; Бейко, Роберт Г. (01.01.2010). «Различение фрагментов микробного генома на основе их состава: эволюционные и сравнительные геномные перспективы» . Геномная биология и эволюция . 2 : 117–131. DOI : 10.1093 / GbE / evq004 . ISSN 1759-6653 . PMC 2839357 . PMID 20333228 .   
  5. ^ Эшке, Катрин; Тримперт, Якоб; Остерридер, Николаус; Кунец, Душан (29.01.2018). Мокарски, Эдвард (ред.). «Ослабление очень вирулентного вируса герпеса болезни Марека (MDV) путем деоптимизации смещения пары кодонов» . PLOS Патогены . 14 (1): e1006857. DOI : 10.1371 / journal.ppat.1006857 . ISSN 1553-7374 . PMC 5805365 . PMID 29377958 .   
  6. ^ a b Мэйплсон, Дэниел; Гарсия Аччинелли, Гонсало; Кеттлборо, Джордж; Райт, Джонатан; Клавихо, Бернардо Дж. (22.10.2016). "KAT: набор инструментов анализа K-mer для контроля качества наборов данных NGS и геномных сборок" . Биоинформатика . 33 (4): 574–576. DOI : 10.1093 / биоинформатики / btw663 . ISSN 1367-4803 . PMC 5408915 . PMID 27797770 .   
  7. ^ a b Чор, Бенни; Хорн, Дэвид; Гольдман, Ник; Леви, Ярон; Massingham, Тим (2009). «Спектры k-мер геномной ДНК: модели и модальности» . Геномная биология . 10 (10): R108. DOI : 10.1186 / ГБ-2009-10-10-r108 . ISSN 1465-6906 . PMC 2784323 . PMID 19814784 .   
  8. ^ Яковчук, P. (2006-01-30). «Вклады укладки оснований и спаривания оснований в термостабильность двойной спирали ДНК» . Исследования нуклеиновых кислот . 34 (2): 564–574. DOI : 10.1093 / NAR / gkj454 . ISSN 0305-1048 . PMC 1360284 . PMID 16449200 .   
  9. Бернарди, Джорджио (январь 2000 г.). «Изохоры и эволюционная геномика позвоночных». Джин . 241 (1): 3–17. DOI : 10.1016 / S0378-1119 (99) 00485-0 . PMID 10607893 . 
  10. ^ Херст, Лоуренс Д .; Торговец, Алекса Р. (07.03.2001). «Высокое содержание гуанина-цитозина не является адаптацией к высокой температуре: сравнительный анализ среди прокариот» . Труды Королевского общества B: биологические науки . 268 (1466): 493–497. DOI : 10.1098 / rspb.2000.1397 . ISSN 1471-2954 . PMC 1088632 . PMID 11296861 .   
  11. ^ a b c Mugal, Carina F .; Вебер, Клаудиа С .; Эллегрен, Ханс (декабрь 2015 г.). «Конверсия генов с учетом GC связывает ландшафт рекомбинации и демографию с составом геномных баз: преобразование генов с учетом GC управляет составом геномных оснований у широкого круга видов». BioEssays . 37 (12): 1317–1326. DOI : 10.1002 / bies.201500058 . PMID 26445215 . S2CID 21843897 .  
  12. ^ Romiguier, Джонатан; Ру, Камилла (2017-02-15). «Аналитические ошибки, связанные с GC-содержанием в молекулярной эволюции» . Границы генетики . 8 : 16. DOI : 10,3389 / fgene.2017.00016 . ISSN 1664-8021 . PMC 5309256 . PMID 28261263 .   
  13. ^ Спенсер, CCA (2006-08-01). «Человеческий полиморфизм вокруг горячих точек рекомбинации: Рисунок 1». Сделки Биохимического Общества . 34 (4): 535–536. DOI : 10.1042 / BST0340535 . ISSN 0300-5127 . PMID 16856853 .  
  14. ^ Вебер, Клаудия C; Буссау, Бастьен; Ромигье, Джонатан; Джарвис, Эрих Д; Эллегрен, Ханс (декабрь 2014 г.). «Доказательства генетической конверсии смещенной GC как движущей силы различий между линиями в составе основы птиц» . Геномная биология . 15 (12): 549. DOI : 10.1186 / s13059-014-0549-1 . ISSN 1474-760X . PMC 4290106 . PMID 25496599 .   
  15. ^ Лассаль, Флоран; Периан, Северин; Батайон, Томас; Несме, Ксавье; Дюре, Лоран; Добин, Винсент (06.02.2015). Петров, Дмитрий А. (ред.). «Эволюция GC-содержания в бактериальных геномах: расширяется гипотеза необъективной конверсии генов» . PLOS Genetics . 11 (2): e1004941. DOI : 10.1371 / journal.pgen.1004941 . ISSN 1553-7404 . PMC 4450053 . PMID 25659072 .   
  16. ^ Сантоё, G; Ромеро, Д. (апрель 2005 г.). «Конверсия генов и согласованная эволюция в бактериальных геномах». Обзоры микробиологии FEMS . 29 (2): 169–183. DOI : 10.1016 / j.femsre.2004.10.004 . PMID 15808740 . 
  17. ^ Берер, Клод; Отон, Адам (16.06.2014), John Wiley & Sons Ltd (редактор), «Предвзятая конверсия генов и ее влияние на эволюцию генома», eLS , John Wiley & Sons, Ltd, doi : 10.1002 / 9780470015902.a0020834. pub2 , ISBN 9780470015902
  18. ^ a b Карлин, Самуэль (октябрь 1998 г.). «Глобальные динуклеотидные сигнатуры и анализ геномной гетерогенности». Текущее мнение в микробиологии . 1 (5): 598–610. DOI : 10.1016 / S1369-5274 (98) 80095-7 . PMID 10066522 . 
  19. ^ Beutler, E .; Gelbart, T .; Хан, JH; Koziol, JA; Бейтлер, Б. (1 января 1989 г.). «Эволюция генома и генетического кода: отбор на динуклеотидном уровне путем метилирования и полирибонуклеотидного расщепления» . Труды Национальной академии наук . 86 (1): 192–196. Bibcode : 1989PNAS ... 86..192B . DOI : 10.1073 / pnas.86.1.192 . ISSN 0027-8424 . PMC 286430 . PMID 2463621 .   
  20. ^ Ди Джаллонардо, Франческа; Schlub, Timothy E .; Ши, Ман; Холмс, Эдвард К. (2017-04-15). Дермоди, Теренс С. (ред.). «Состав динуклеотидов в РНК-вирусах животных больше зависит от семейства вирусов, чем от видов-хозяев» . Журнал вирусологии . 91 (8). DOI : 10,1128 / JVI.02381-16 . ISSN 0022-538X . PMC 5375695 . PMID 28148785 .   
  21. ^ Emojtel, Tomasz; kiełbasa, Szymon M .; Арндт, Питер Ф .; Беренс, Сара; Бурк, Гийом; Вингрон, Мартин (01.01.2011). «Дезаминирование CpG создает сайты связывания транскрипционного фактора с высокой эффективностью» . Геномная биология и эволюция . 3 : 1304–1311. DOI : 10.1093 / GbE / evr107 . ISSN 1759-6653 . PMC 3228489 . PMID 22016335 .   
  22. ^ a b Hershberg, R; Петров, Д.А. (2008). «Выбор по смещению кодонов». Ежегодный обзор генетики . 42 : 287–299. DOI : 10.1146 / annurev.genet.42.110807.091442 . PMID 18983258 . 
  23. ^ Шарп, Пол М .; Ли, Вэнь-Сюн (1987). «Индекс адаптации кодонов - мера направленной систематической ошибки использования синонимичных кодонов и его потенциальные применения» . Исследования нуклеиновых кислот . 15 (3): 1281–1295. DOI : 10.1093 / NAR / 15.3.1281 . ISSN 0305-1048 . PMC 340524 . PMID 3547335 .   
  24. ^ Благородный, Питер А.; Citek, Роберт В .; Огунсейтан, Оладеле А. (апрель 1998 г.). «Частоты тетрануклеотидов в микробных геномах». Электрофорез . 19 (4): 528–535. DOI : 10.1002 / elps.1150190412 . ISSN 0173-0835 . PMID 9588798 . S2CID 9539686 .   
  25. ^ Нагараджан, Ниранджан; Поп, Михай (2013). «Демистификация последовательности сборки». Природа Обзоры Генетики . 14 (3): 157–167. DOI : 10.1038 / nrg3367 . ISSN 1471-0056 . PMID 23358380 . S2CID 3519991 .   
  26. ^ Ли; и другие. (2010). «Сборка de novo геномов человека с массовым параллельным секвенированием короткого чтения» . Геномные исследования . 20 (2): 265–272. DOI : 10.1101 / gr.097261.109 . PMC 2813482 . PMID 20019144 .  
  27. ^ Compeau, P .; Певзнер, П .; Теслар, Г. (2011). «Как применить графики де Брейна к сборке генома» . Природа Биотехнологии . 29 (11): 987–991. DOI : 10.1038 / nbt.2023 . PMC 5531759 . PMID 22068540 .  
  28. ^ Phillippy, Schatz, Pop (2008). «Судебная экспертиза сборки генома: обнаружение неуловимой неправильной сборки» . Биоинформатика . 9 (3): R55. DOI : 10.1186 / GB-2008-9-3-R55 . PMC 2397507 . PMID 18341692 .  CS1 maint: multiple names: authors list (link)
  29. ^ Дельмонт, Эрен (2016). «Выявление загрязнения с помощью передовых методов визуализации и анализа: метагеномные подходы для сборок эукариотического генома» . PeerJ . 4 : e1839. DOI : 10,7717 / peerj.1839 . PMC 4824900 . PMID 27069789 .  
  30. ^ Бемм; и другие. (2016). «Геном тихоходки: горизонтальный перенос генов или бактериальное заражение?» . Труды Национальной академии наук . 113 (22): E3054 – E3056. DOI : 10.1073 / pnas.1525116113 . PMC 4896698 . PMID 27173902 .  
  31. ^ a b Zerbino, Daniel R .; Бирни, Юэн (2008). "Velvet: алгоритмы сборки короткого чтения de novo с использованием графов де Брейна" . Геномные исследования . 18 (5): 821–829. DOI : 10.1101 / gr.074492.107 . PMC 2336801 . PMID 18349386 .  
  32. ^ Goodur, Haswanee D .; Рамтохул, Вьясананд; Байчу, Шакунтала (11 ноября 2012 г.). «GIDT - инструмент для идентификации и визуализации геномных островов в прокариотических организмах». 2012 IEEE 12-я Международная конференция по биоинформатике и биоинженерии (BIBE) : 58–63. DOI : 10.1109 / bibe.2012.6399707 . ISBN 978-1-4673-4358-9. S2CID  6368495 .
  33. ^ Джарон, KS; Moravec, JC; Мартинкова, Н. (2014-04-15). «SigHunt: поисковик горизонтального переноса генов, оптимизированный для геномов эукариот» . Биоинформатика . 30 (8): 1081–1086. DOI : 10.1093 / биоинформатики / btt727 . ISSN 1367-4803 . PMID 24371153 .  
  34. ^ Старр, член парламента; Мандель, М. (1969-04-01). «Состав ДНК и таксономия фитопатогенных и других энтеробактерий» . Журнал общей микробиологии . 56 (1): 113–123. DOI : 10.1099 / 00221287-56-1-113 . ISSN 0022-1287 . PMID 5787000 .  
  35. ^ Мур, WEC; Stackebrandt, E .; Kandler, O .; Колвелл, Р.Р .; Кричевский, М.И.; Truper, HG; Мюррей, RGE; Уэйн, LG; Гримонт, PAD (1987-10-01). «Отчет Специального комитета по согласованию подходов к бактериальной систематике» . Международный журнал систематической и эволюционной микробиологии . 37 (4): 463–464. DOI : 10.1099 / 00207713-37-4-463 . ISSN 1466-5026 . 
  36. ^ Patro, гора, Кингсфорд (2014). «Sailfish обеспечивает количественную оценку изоформ без выравнивания по считыванию последовательности РНК с использованием легких алгоритмов» . Природа Биотехнологии . 32 (5): 462–464. arXiv : 1308,3700 . DOI : 10.1038 / nbt.2862 . PMC 4077321 . PMID 24752080 .  CS1 maint: multiple names: authors list (link)
  37. ^ Наварро-Гомес; и другие. (2015). «Phy-Mer: новый классификатор митохондриальных гаплогрупп, не требующий выравнивания и ссылки» . Биоинформатика . 31 (8): 1310–1312. DOI : 10.1093 / биоинформатики / btu825 . PMC 4393525 . PMID 25505086 .  
  38. ^ Ван, Ронг; Сюй, Юн; Лю, Бинь (2016). «Идентификация пятен рекомбинации на основе k-мер с разрывом» . Научные отчеты . 6 (1): 23934. Bibcode : 2016NatSR ... 623934W . DOI : 10.1038 / srep23934 . ISSN 2045-2322 . PMC 4814916 . PMID 27030570 .   
  39. ^ Хозза, Михал; Винерж, Томаш; Брейова, Брода (2015), Илиопулос, Костас; Пуглиси, Саймон; Yilmaz, Эмине (ред.), "Насколько велик , что Геном Смета Геном Размер и покрытие из к-мер Изобилия Spectra?", Строка обработка и поиск информации , Springer International Publishing, 9309 , стр 199-209,. DOI : 10.1007 / 978-3-319-23826-5_20 , ISBN 9783319238258
  40. ^ Lamichhaney, Sangeet; Фань, Гуаньи; Widemo, Фредрик; Гуннарссон, Ульрика; Тельманн, Дорин Швохов; Hoeppner, Marc P; Керье, Сюзанна; Густафсон, Улла; Ши, Чэнчэн (2016). «Структурные геномные изменения лежат в основе альтернативных репродуктивных стратегий ерша (Philomachus pugnax)» . Генетика природы . 48 (1): 84–88. DOI : 10.1038 / ng.3430 . ISSN 1061-4036 . PMID 26569123 .  
  41. ^ Чаэ; и другие. (2013). «Сравнительный анализ с использованием паттернов K-мер и K-флангов обеспечивает доказательство эволюции последовательности CpG-островков в геномах млекопитающих» . Исследования нуклеиновых кислот . 41 (9): 4783–4791. DOI : 10.1093 / NAR / gkt144 . PMC 3643570 . PMID 23519616 .  
  42. ^ Мохамед Хашим, Абдулла (2015). «Редкая k-мерная ДНК: идентификация мотивов последовательности и предсказание CpG-островка и промотора» . Журнал теоретической биологии . 387 : 88–100. DOI : 10.1016 / j.jtbi.2015.09.014 . PMID 26427337 . 
  43. ^ Цена, Джонс, Певзнер (2005). «De novo идентификация повторяющихся семейств в больших геномах» . Биоинформатика . 21 (supp 1): i351–8. DOI : 10.1093 / биоинформатики / bti1018 . PMID 15961478 . CS1 maint: multiple names: authors list (link)
  44. ^ Мехер, Прабина Кумар; Саху, Танмая Кумар; Рао, АР (2016). «Идентификация видов на основе штрих-кода ДНК с использованием вектора признаков k-mer и классификатора случайного леса». Джин . 592 (2): 316–324. DOI : 10.1016 / j.gene.2016.07.010 . PMID 27393648 . 
  45. ^ Newburger, Булык (2009). «UniPROBE: онлайновая база данных микрочипов связывания белков по взаимодействиям белок-ДНК» . Исследования нуклеиновых кислот . 37 (supp 1) (выпуск базы данных): D77–82. DOI : 10.1093 / NAR / gkn660 . PMC 2686578 . PMID 18842628 .  
  46. ^ Нордстрем; и другие. (2013). «Идентификация мутации путем прямого сравнения данных секвенирования всего генома от мутантов и людей дикого типа с использованием k-мер» . Природа Биотехнологии . 31 (4): 325–330. DOI : 10.1038 / nbt.2515 . PMID 23475072 . 
  47. ^ Чжу, Цзяньфэн; Чжэн, Вэй-Моу (2014). «Самоорганизующийся подход к мета-геномам». Вычислительная биология и химия . 53 : 118–124. DOI : 10.1016 / j.compbiolchem.2014.08.016 . PMID 25213854 . 
  48. ^ Дубинкина; Ищенко; Ульянцев; Тяхт; Алексеева (2016). «Оценка применимости спектра k-мер для анализа метагеномного несходства» . BMC Bioinformatics . 17 : 38. DOI : 10,1186 / s12859-015-0875-7 . PMC 4715287 . PMID 26774270 .  
  49. ^ Teeling, H; Waldmann, J; Ломбардо, Т; Бауэр, М; Глёкнер, Ф (2004). «TETRA: веб-сервис и отдельная программа для анализа и сравнения моделей использования тетрануклеотидов в последовательностях ДНК» . BMC Bioinformatics . 5 : 163. DOI : 10,1186 / 1471-2105-5-163 . PMC 529438 . PMID 15507136 .  
  50. ^ Чаттерджи, Сурав; Ямазаки, Ичитаро; Бай, Чжаоцзюнь; Эйзен, Джонатан А. (2008), Вингрон, Мартин; Вонг, Лимсун (ред.), «CompostBin: алгоритм на основе состава ДНК для биннинга показаний из дробовика в окружающей среде», Исследования в области вычислительной молекулярной биологии , Springer Berlin Heidelberg, 4955 , стр. 17–28, arXiv : 0708.3098 , doi : 10.1007 / 978-3-540-78839-3_3 , ISBN 9783540788386, S2CID  7832512
  51. ^ Чжэн, Хао; У, Хунвэй (2010). «Объединение коротких фрагментов прокариотической ДНК с использованием иерархического классификатора на основе линейного дискриминантного анализа и анализа главных компонентов». Журнал биоинформатики и компьютерной биологии . 08 (6): 995–1011. DOI : 10.1142 / S0219720010005051 . ISSN 0219-7200 . PMID 21121023 .  
  52. ^ Макхарди, Элис Кэролин; Мартин, Эктор Гарсия; Циригос, Аристотелис; Гугенгольц, Филипп; Ригутсос, Исидор (2007). «Точная филогенетическая классификация фрагментов ДНК переменной длины». Природные методы . 4 (1): 63–72. DOI : 10.1038 / nmeth976 . ISSN 1548-7091 . PMID 17179938 . S2CID 28797816 .   
  53. ^ Оунит, Рашид; Ванамакер, Стив; Близко, Тимоти Дж; Лонарди, Стефано (2015). «CLARK: быстрая и точная классификация метагеномных и геномных последовательностей с использованием дискриминационных k-мер» . BMC Genomics . 16 (1): 236. DOI : 10,1186 / s12864-015-1419-2 . ISSN 1471-2164 . PMC 4428112 . PMID 25879410 .   
  54. ^ Диаз, Naryttza N; Краузе, Лутц; Гесманн, Александр; Нихаус, Карстен; Натткемпер, Тим В. (2009). «TACOA - Таксономическая классификация фрагментов генома в окружающей среде с использованием подхода к ядру ближайшего соседа» . BMC Bioinformatics . 10 (1): 56. DOI : 10,1186 / 1471-2105-10-56 . ISSN 1471-2105 . PMC 2653487 . PMID 19210774 .   
  55. ^ Фианнака, Антонино; Ла Палья, Лаура; Ла Роса, Массимо; Lo Bosco, Giosue '; Ренда, Джованни; Риццо, Риккардо; Гальо, Сальваторе; Урсо, Альфонсо (2018). «Модели глубокого обучения для таксономической классификации метагеномных данных бактерий» . BMC Bioinformatics . 19 (S7): 198. DOI : 10,1186 / s12859-018-2182-6 . ISSN 1471-2105 . PMC 6069770 . PMID 30066629 .   
  56. ^ Чжу, Чжэн (2014). «Самоорганизующийся подход к мета-геномам». Вычислительная биология и химия . 53 : 118–124. DOI : 10.1016 / j.compbiolchem.2014.08.016 . PMID 25213854 . 
  57. ^ Лу, Дженнифер; Breitwieser, Florian P .; Тилен, Питер; Зальцберг, Стивен Л. (02.01.2017). «Bracken: оценка численности видов в данных метагеномики» . PeerJ Computer Science . 3 : e104. DOI : 10.7717 / peerj-cs.104 . ISSN 2376-5992 . 
  58. ^ Вуд, Деррик Э; Зальцберг, Стивен Л. (2014). «Kraken: сверхбыстрая классификация метагеномных последовательностей с использованием точного выравнивания» . Геномная биология . 15 (3): R46. DOI : 10.1186 / GB-2014-15-3-R46 . ISSN 1465-6906 . PMC 4053813 . PMID 24580807 .   
  59. ^ Розен, Гейл; Гарбарин, Элейн; Касейро, Диамантино; Поликар, Роби; Сохансандж, Бахрад (2008). «Классификация фрагментов метагенома с использованием частотных профилей -Mer» . Успехи биоинформатики . 2008 : 205969. дои : 10,1155 / 2008/205969 . ISSN 1687-8027 . PMC 2777009 . PMID 19956701 .   
  60. ^ Ван, Инь; Фу, Лэй; Рен, Джи; Ю, Чжаося; Чен, Тинг; Сунь, Фэнчжу (2018-05-03). «Идентификация групповых последовательностей для микробных сообществ с использованием длинных сигнатур k-мерных последовательностей» . Границы микробиологии . 9 : 872. DOI : 10,3389 / fmicb.2018.00872 . ISSN 1664-302X . PMC 5943621 . PMID 29774017 .   
  61. Ас-Саиф, Махер; Хабар, Халид С.А. (2012). «Снижение частоты динуклеотидов UU / UA в кодирующих областях приводит к увеличению стабильности мРНК и экспрессии белка» . Молекулярная терапия . 20 (5): 954–959. DOI : 10.1038 / mt.2012.29 . PMC 3345983 . PMID 22434136 .  
  62. ^ Trinh, R; Гурбахани, Б; Моррисон, SL; Сейфзаде, М (2004). «Оптимизация использования пар кодонов в линкерной последовательности (GGGGS) 3 приводит к усиленной экспрессии белка». Молекулярная иммунология . 40 (10): 717–722. DOI : 10.1016 / j.molimm.2003.08.006 . PMID 14644097 . 
  63. ^ Шен, Сэм Х .; Stauft, Charles B .; Горбацевич, Александр; Сонг, Ютонг; Уорд, Чарльз Б.; Юровский, Алиса; Мюллер, Штеффен; Футчер, Брюс; Виммер, Эккард (14 апреля 2015 г.). «Крупномасштабное перекодирование генома арбовируса для восстановления баланса между предпочтениями насекомых и млекопитающих» . Труды Национальной академии наук . 112 (15): 4749–4754. Bibcode : 2015PNAS..112.4749S . DOI : 10.1073 / pnas.1502864112 . ISSN 0027-8424 . PMC 4403163 . PMID 25825721 .   
  64. ^ Каплан, Брайан С .; Соуза, Карин К .; Gauger, Phillip C .; Stauft, Charles B .; Роберт Коулман, Дж .; Мюллер, Штеффен; Винсент, Эми Л. (2018). «Вакцинация свиней с деоптимизированной живой аттенуированной вакциной против гриппа с использованием смещения пар кодонов защищает от гомологичного заражения» . Вакцина . 36 (8): 1101–1107. DOI : 10.1016 / j.vaccine.2018.01.027 . PMID 29366707 . 
  65. ^ Эшке, Катрин; Тримперт, Якоб; Остерридер, Николаус; Кунец, Душан (29.01.2018). Мокарски, Эдвард (ред.). «Ослабление очень вирулентного вируса герпеса болезни Марека (MDV) путем деоптимизации смещения пары кодонов» . PLOS Патогены . 14 (1): e1006857. DOI : 10.1371 / journal.ppat.1006857 . ISSN 1553-7374 . PMC 5805365 . PMID 29377958 .   
  66. ^ Кунец, Душан; Остерридер, Николаус (2016). «Смещение пары кодонов является прямым следствием смещения динуклеотидов» . Сотовые отчеты . 14 (1): 55–67. DOI : 10.1016 / j.celrep.2015.12.011 . PMID 26725119 . 
  67. ^ Туллох, Фиона; Аткинсон, Ники Дж; Эванс, Дэвид Дж; Райан, Мартин Д; Симмондс, Питер (9 декабря 2014 г.). «Ослабление РНК-вируса деоптимизацией пар кодонов является артефактом увеличения частот динуклеотидов CpG / UpA» . eLife . 3 : e04531. DOI : 10.7554 / eLife.04531 . ISSN 2050-084X . PMC 4383024 . PMID 25490153 .   
  68. ^ Марсе, Гийом; Кингсфорд, Карл (15 марта 2011 г.). «Быстрый подход без блокировок для эффективного параллельного подсчета появления k-мер» . Биоинформатика . 27 (6): 764–770. DOI : 10.1093 / биоинформатики / btr011 . ISSN 1460-2059 . PMC 3051319 . PMID 21217122 .   
  69. ^ Деорович, Себастьян; Кокот, Марек; Грабовски, Шимон; Дебудай-Грабыш, Агнешка (2015-05-15). «KMC 2: быстрый и экономный подсчет к-мер» . Биоинформатика . 31 (10): 1569–1576. DOI : 10.1093 / биоинформатики / btv022 . ISSN 1460-2059 . PMID 25609798 .  
  70. ^ Эрберт, Мариус; Рехнер, Штеффен; Мюллер-Ханнеманн, Маттиас (2017). "Gerbil: быстрый и эффективный с точки зрения памяти счетчик k-mer с поддержкой GPU" . Алгоритмы молекулярной биологии . 12 (1): 9. DOI : 10,1186 / s13015-017-0097-9 . ISSN 1748-7188 . PMC 5374613 . PMID 28373894 .   

Внешние ссылки [ править ]

  • bioXriv: k-mer
  • arXiv: k-mer