Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В биоинформатики , анализ последовательности выравнивания свободных подходов к данным молекулярной последовательности и структуры обеспечивают более альтернативы выравнивания на основе подходов. [1]

Появление и потребность в анализе различных типов данных, полученных в результате биологических исследований, привели к возникновению области биоинформатики . [2] Молекулярные последовательности и данные структуры ДНК , РНК и белков , профили экспрессии генов или данные микрочипов, данные метаболических путей - вот некоторые из основных типов данных, анализируемых в биоинформатике. Среди них данные о последовательностях растут с экспоненциальной скоростью из-за появления технологий секвенирования следующего поколения. С момента зарождения биоинформатики анализ последовательностейостается основной областью исследований с широким спектром приложений для поиска в базах данных, аннотации генома , сравнительной геномики , молекулярной филогении и прогнозирования генов . Новаторские подходы к анализу последовательностей были основаны на выравнивании последовательностей либо глобальном, либо локальном, попарном или множественном выравнивании последовательностей . [3] [4]Подходы, основанные на выравнивании, обычно дают отличные результаты, когда исследуемые последовательности тесно связаны и могут быть надежно выровнены, но когда последовательности расходятся, надежное выравнивание не может быть получено, и, следовательно, применение выравнивания последовательностей ограничено. Другим ограничением подходов, основанных на выравнивании, является их вычислительная сложность, они требуют много времени и, следовательно, ограничены при работе с крупномасштабными данными последовательности. [5] Появление технологий секвенирования следующего поколения привело к получению объемных данных по секвенированию. Размер этих данных о последовательности создает проблемы для алгоритмов на основе выравнивания при их сборке, аннотации и сравнительных исследованиях.

Методы без выравнивания [ править ]

Методы без выравнивания можно в целом разделить на пять категорий: a) методы, основанные на частоте k -меров / слов, b) методы, основанные на длине общих подстрок, c) методы, основанные на количестве совпадений (разнесенных) слов, d ) методы, основанные на микровыравнивании , e) методы, основанные на теории информации, и f) методы, основанные на графическом представлении. Подходы без выравнивания использовались в поисках сходства последовательностей, [6] кластеризации и классификации последовательностей [7], а в последнее время в филогенетике [8] [9] ( Рисунок 1 ).

Считается, что такой молекулярный филогенетический анализ с использованием подходов без выравнивания является частью филогеномики следующего поколения . [9] В ряде обзорных статей дается подробный обзор методов анализа последовательностей без выравнивания. [1] [10] [11] [12] [13] [14] [15]

AFproject является международным сотрудничеством для сравнения и сравнить программные средства для выравнивания свободного сравнения последовательностей. [16]

Методы, основанные на частоте k -меров / слов [ править ]

Популярные методы, основанные на частотах k -меров / слов, включают в себя частотный профиль признаков (FFP), [17] [18] Вектор композиции (CV), [19] [20] Распределение времени возврата (RTD), [21] игру с хаосом частот. представительство (FCGR). [22] и слова через пробелы. [23]

Профиль частотности выпуска (FFP) [ править ]

Методология, используемая в методе на основе FFP, начинается с вычисления количества каждого возможного k -мера (возможное количество k -меров для нуклеотидной последовательности: 4 k , а для последовательности белка: 20 k ) в последовательностях. Каждый к -mer граф в каждой последовательности затем нормализовали путем деления его на общее количество всех к -mers' Количество в этой последовательности. Это приводит к преобразованию каждой последовательности в ее частотный профиль характеристики. Затем вычисляется попарное расстояние между двумя последовательностями, дивергенция Дженсена – Шеннона (JS) между их соответствующими FFP. Полученная таким образом матрица расстояний может быть использована для построения филогенетического деревас использованием алгоритмов кластеризации, таких как соединение соседей , UPGMA и т. д.

Вектор композиции (CV) [ править ]

В этом методе рассчитывается частота появления каждого возможного k -мера в заданной последовательности. Следующим характерным шагом этого метода является вычитание случайного фона из этих частот с использованием модели Маркова, чтобы уменьшить влияние случайных нейтральных мутаций, чтобы подчеркнуть роль избирательной эволюции. Нормализованные частоты помещаются в фиксированный порядок, чтобы сформировать вектор композиции (CV) заданной последовательности. Затем функция косинусного расстояния используется для вычисления попарного расстояния между CV последовательностей. Полученная таким образом матрица расстояний может быть использована для построения филогенетического дерева с использованием алгоритмов кластеризации, таких как соединение соседей , UPGMA.и т.д. Этот метод может быть расширен за счет использования эффективных алгоритмов сопоставления с образцом для включения в вычисление векторов композиции: (i) все k -меры для любого значения k , (ii) все подстроки любой длины вплоть до произвольно установленного максимальное значение k , (iii) все максимальные подстроки, где подстрока является максимальной, если расширение ее любым символом приведет к уменьшению количества ее вхождений. [24] [25]

Распределение времени возврата (RTD) [ править ]

Метод на основе RTD не вычисляет количество k -меров в последовательностях, вместо этого он вычисляет время, необходимое для повторного появления k -меров. Время относится к числу остатков при последовательном появлении конкретного k- мера. Таким образом, наличие каждого k -мера в последовательности вычисляется в форме RTD, которая затем суммируется с использованием двух статистических параметров, среднего (μ) и стандартного отклонения (σ). Таким образом, каждая последовательность представлена ​​в виде числового вектора размером 2 · 4 k, содержащего μ и σ 4 k RTD. Попарное расстояние между последовательностями рассчитывается с использованиемЕвклидово расстояние . Полученная таким образом матрица расстояний может быть использована для построения филогенетического дерева с использованием алгоритмов кластеризации, таких как объединение соседей , UPGMA и т. Д. Недавний подход «Извлечение образов посредством энтропийного поиска» (PEER) обеспечивает прямое определение длины k-мер и суммирует интервал появления с использованием энтропии. .

Представление игры частотного хаоса (FCGR) [ править ]

Методы FCGR произошли от техники представления хаотической игры (CGR), которая обеспечивает независимое от масштаба представление геномных последовательностей. [26] CGR могут быть разделены линиями сетки, где каждый квадрат сетки обозначает наличие олигонуклеотидов определенной длины в последовательности. Такое представление CGR называется представлением игры частотного хаоса (FCGR). Это приводит к представлению каждой последовательности в FCGR. Попарное расстояние между FCGR последовательностей может быть вычислено с использованием расстояния Пирсона, расстояния Хэмминга или евклидова расстояния. [27]

Частоты разделенных слов [ править ]

В то время как большинство алгоритмов без выравнивания сравнивают состав слов в последовательностях, интервалы в словах используют шаблон осторожности и безразличия позиций. Вхождение слова с интервалом в последовательность затем определяется символами в позициях соответствия, в то время как символы в позициях безразличия игнорируются. Вместо сравнения частот смежных слов во входных последовательностях этот подход сравнивает частоты разделенных слов в соответствии с заранее заданным шаблоном. [23] Обратите внимание, что предопределенный шаблон может быть выбран путем анализа дисперсии количества совпадений [28], вероятности первого появления на нескольких моделях [29] или коэффициента корреляции Пирсона.между ожидаемой частотой слов и истинным расстоянием выравнивания. [30]

Методы, основанные на длине общих подстрок [ править ]

Методы этой категории используют сходство и различие подстрок в паре последовательностей. Эти алгоритмы в основном использовались для обработки строк в информатике . [31]

Средняя общая подстрока (ACS) [ править ]

В этом подходе для выбранной пары последовательностей (A и B длиной n и m соответственно) самая длинная подстрока, начинающаяся в некоторой позиции, идентифицируется в одной последовательности (A), которая точно соответствует другой последовательности (B) в любой позиции. Таким образом вычисляются длины самых длинных подстрок, начинающихся в разных позициях в последовательности A и имеющих точные совпадения в некоторых позициях в последовательности B. Все эти длины усредняются для получения меры . Наглядно, чем больше , тем больше похожие на две последовательности. Для учета различий в длине последовательностей нормализуется [т.е. ]. Это дает меру сходства между последовательностями.

Для получения меры расстояния берется величина, обратная измерению подобия, и из нее вычитается поправочный член, чтобы гарантировать, что он будет равен нулю. Таким образом

Эта мера не является симметричной, поэтому нужно вычислить , что дает окончательную меру ACS между двумя строками (A и B). [32] Поиск подпоследовательности / подстроки может быть эффективно выполнен с использованием деревьев суффиксов . [33] [34] [35]

Подход общей подстроки k -mismatch Average (kmacs) [ править ]

Этот подход является обобщением подхода ACS. Чтобы определить расстояние между двумя последовательностями ДНК или белка, kmacs оценивает для каждой позиции i первой последовательности самую длинную подстроку, начинающуюся с i и совпадающую с подстрокой второй последовательности до k несовпадений. Он определяет среднее значение этих значений как меру сходства между последовательностями и превращает это в симметричную меру расстояния. Kmacs не вычисляет точные подстроки с k- несовпадением, так как это было бы слишком затратно с точки зрения вычислений, но приближает такие подстроки. [36]

Расстояния мутации (Kr) [ править ]

Этот подход тесно связан с ACS, который вычисляет количество замен на сайт между двумя последовательностями ДНК с использованием самой короткой отсутствующей подстроки (называемой шустрингом). [37]

Распределение длин общих подстрок с k-несовпадением [ править ]

Этот подход использует программу kmacs [36] для вычисления наиболее длинных общих подстрок с до k несовпадений для пары последовательностей ДНК. Затем филогенетическое расстояние между последовательностями можно оценить по локальному максимуму в распределении длин общих подстрок с k-несовпадением. [38]

Методы, основанные на количестве (разнесенных) совпадений слов [ править ]

и [ редактировать ]

Эти подходы представляют собой варианты статистики, которая подсчитывает количество совпадений -mer между двумя последовательностями. Они улучшают простую статистику, принимая во внимание фоновое распределение сравниваемых последовательностей. [39]

MASH [ править ]

Это чрезвычайно быстрый метод, который использует стратегию нижнего скетча MinHash для оценки индекса Жаккара для множественных наборов -меров двух входных последовательностей. То есть он оценивает отношение совпадений -mer к общему количеству -меров последовательностей. Это, в свою очередь, можно использовать для оценки эволюционных расстояний между сравниваемыми последовательностями, измеряемых как количество замен на позицию последовательности, так как последовательности произошли от их последнего общего предка. [40]

Slope-Tree [ править ]

Этот подход вычисляет значение расстояния между двумя белковыми последовательностями на основе уменьшения числа совпадений -меров при увеличении. [41]

Slope-SpaM [ править ]

Этот метод вычисляет число из -mer или разнесенного слово матчей ( СПАМ ) для различных значений длины слова или число позиций соответствия в базовой модели, соответственно. Для оценки расстояния Джукса-Кантора между входными последовательностями вычисляется наклон аффинно-линейной функции, которая зависит от . [42]

Скмер [ править ]

Скмер вычисляет расстояния между видами по разобранным показаниям секвенирования. Подобно MASH , он использует индекс Жаккара для наборов -меров из входных последовательностей. В отличие от MASH , программа по-прежнему точна для низкого охвата секвенированием, поэтому ее можно использовать для сканирования генома . [43]

Методы на основе микровыравнивания [ править ]

Строго говоря, эти методы не свободны от согласования . Они используют простые микровыравнивания без разрывов, когда последовательности должны соответствовать в определенных заранее определенных положениях. Положения, выровненные по оставшимся позициям микровыравнивания, где допускаются несоответствия, затем используются для вывода филогении.

Со-филог [ править ]

Этот метод ищет так называемые структуры , которые определяются как пары совпадений k- мер между двумя последовательностями ДНК, которые находятся на расстоянии одного положения в обеих последовательностях. Два k- мерных совпадения называются контекстом , положение между ними - объектом . Затем со-филог определяет расстояние между двумя последовательностями - долю таких структур, для которых два нуклеотида в объекте различны. Подход может быть применен к несобранным операциям чтения секвенирования. [44]

Энди [ править ]

andi оценивает филогенетические расстояния между геномными последовательностями на основе локальных сопоставлений без пробелов, которые фланкируются максимально точными совпадениями слов. Такие совпадения слов можно эффективно найти с помощью массивов суффиксов. Выравнивания без пробелов между точными совпадениями слов затем используются для оценки филогенетических расстояний между последовательностями генома. Полученные оценки расстояния точны примерно до 0,6 замен на позицию. [45]

Отфильтрованные совпадения слов с интервалом (FSWM) [ править ]

FSWM использует предопределенный двоичный шаблон P , представляющий так называемые позиции матча и позицию не-ухода . Для пары последовательностей входных ДНК, он затем ищет отстоящих слова спичку WRT P , т.е. для локальных бесщелевых выравниваний с соответствующими нуклеотидами в положениях матча в P и возможных несоответствиях в той позиции не-санитарной помощи . Ложные совпадения разнесенных слов с низким показателем отбрасываются, эволюционные расстояния между входными последовательностями оцениваются на основе нуклеотидов, выровненных друг с другом в безразличных положениях оставшихся гомологичных совпадений разнесенных слов. [46]Программа FSWM была адаптирована для оценки расстояний на основе несобранных чтений NGS, эта версия программы называется Read-SpaM . [47]

Prot-SpaM [ править ]

Прот-СПАМ ( Прот eome основа Сп CED-слово М atches) является реализацией алгоритма FSWM для частичных или целых последовательностей протеома. [48]

Multi-SpaM [ править ]

Multi-спам ( Мульти PLE Spa CED-слово М atches) является подходом к геном на основе филогении реконструкции , который расширяет идею FSWM для множественного сравнения последовательностей. [49] Учитывая двоичный шаблон P из спичечных позиций и не учитывается , позиция , программа ищет P -блоков, т.е. местных четыре направлений выравнивания без зазора с соответствующими нуклеотидами на те позиции спичечных из P и возможных несоответствиями в то безразличные позиции . Такие четырехсторонние сопоставления случайным образом выбираются из набора входных последовательностей генома. Для каждого P-block, топология некорневого дерева вычисляется с использованием RAxML . [50] Затем программа Quartet MaxCut используется для вычисления супердерева из этих деревьев.

Методы, основанные на теории информации [ править ]

Информационная теория предоставила успешные методы для анализа и сравнения последовательностей без выравнивания. Существующие приложения теории информации включают глобальную и локальную характеристику ДНК, РНК и белков, оценку энтропии генома по мотивам и классификации регионов. Он также является многообещающим для картирования генов , секвенирования следующего поколения и метагеномики . [51]

Базовая корреляция (BBC) [ править ]

Базовая корреляция (BBC) преобразует последовательность генома в уникальный 16-мерный числовой вектор, используя следующее уравнение:

Символы и обозначают вероятности появления оснований i и j в геноме. Указывает на вероятность оснований я и J на расстоянии л в геноме. Параметр K указывает максимальное расстояние между основаниями i и j . Вариации значений 16 параметров отражают вариации в составе и длине генома. [52] [53] [54]

Корреляция информации и частичная корреляция информации (IC-PIC) [ править ]

Метод, основанный на IC-PIC ( корреляция информации и частичная корреляция информации), использует свойство базовой корреляции последовательности ДНК. IC и PIC рассчитывались по следующим формулам:

Окончательный вектор получается следующим образом:

который определяет диапазон расстояний между базами. [55]

Попарное расстояние между последовательностями рассчитывается с использованием меры евклидова расстояния . Полученная таким образом матрица расстояний может быть использована для построения филогенетического дерева с использованием алгоритмов кластеризации, таких как соединение соседей , UPGMA и т. Д.

Сжатие [ править ]

Примеры - эффективные приближения к сложности Колмогорова , например сложность Лемпеля-Зива . Обычно методы, основанные на сжатии, используют взаимную информацию между последовательностями. Это выражается в условной сложности Колмогорова , то есть в длине самой короткой программы с самоограничением, необходимой для генерации строки при предварительном знании другой строки. Эта мера имеет отношение к измерению k -слов в последовательности, поскольку их можно легко использовать для генерации последовательности. Иногда это ресурсоемкий метод. Теоретическая основа подхода сложности Колмогорова была заложена Беннетом, Гаксом, Ли, Витаньи и Зурек (1998), предложив информационное расстояние . [56] Колмогоров сложность быть невычислимой она была аппроксимирована с помощью алгоритмов сжатия. Чем лучше они сжимаются, тем лучше. Ли, Баджер, Чен, Квонг, Кирни и Чжан (2001) использовали неоптимальную, но нормализованную форму этого подхода [57] и оптимальную нормализованную форму Ли, Чен, Ли, Ма и Витаньи (2003). появился в [58] и более подробно и доказан Cilibrasi and Vitanyi (2005) в. [59] Otu и Sayood (2003) использовали метод сложности Лемпеля-Зива для построения пяти различных мер расстояния для построения филогенетического дерева . [60]

Сжатие контекстного моделирования [ править ]

В контексте контекстного моделирования сложности предсказания следующего символа одной или нескольких статистических моделей объединяются или конкурируют, чтобы дать предсказание, основанное на событиях, записанных в прошлом. Содержимое алгоритмической информации, полученное из предсказания каждого символа, может использоваться для вычисления профилей алгоритмической информации со временем, пропорциональным длине последовательности. Этот процесс был применен к анализу последовательности ДНК. [61]

Методы, основанные на графическом представлении [ править ]

Итерированные карты [ править ]

Использование повторных карт для анализа последовательностей было впервые введено Х. Дж. Джеффри в 1990 году [26], когда он предложил применить игру Хаоса для отображения геномных последовательностей в единичный квадрат. В этом отчете эта процедура была названа представлением игры хаоса (CGR). Однако всего 3 года спустя этот подход был впервые отклонен Н. Гольдманом как проекция таблицы переходов Маркова. [62] Это возражение было отвергнуто к концу того десятилетия, когда было обнаружено обратное - что CGR биективно отображает марковский переход во фрактальное, беспорядочное (свободное от степеней) представление. [63]Осознание того, что повторяющиеся карты обеспечивают взаимно однозначное сопоставление между символьным пространством и числовым пространством, привело к идентификации множества подходов к сравнению и характеристике последовательностей без выравнивания. Эти разработки были рассмотрены в конце 2013 г. Дж. С. Алмейдой в [64]. Ряд веб-приложений, таких как https://usm.github.com , [65] , доступны для демонстрации того, как кодировать и сравнивать произвольные символьные последовательности в определенной манере. который использует все преимущества современного дистрибутива MapReduce, разработанного для облачных вычислений.

Сравнение методов, основанных на выравнивании, и методов без выравнивания [ править ]

Применение методов без выравнивания [ править ]

  • Геномные перестройки [67] [68]
  • Молекулярная филогенетика [9] [14] [69]
  • Метагеномика [70] [71] [72] [73] [74]
  • Анализ данных последовательности следующего поколения [70] [30]
  • Эпигеномика [75]
  • Штрих-кодирование видов [76]
  • Популяционная генетика [11]
  • Горизонтальный перенос генов [8]
  • Серо / генотипирование вирусов [21] [77] [78]
  • Прогнозирование аллергенности [79]
  • Обнаружение SNP [80]
  • Обнаружение рекомбинации [81]

Список веб-серверов / программного обеспечения для методов без выравнивания [ править ]

См. Также [ править ]

  • Анализ последовательности
  • Множественное выравнивание последовательностей
  • Филогеномика
  • Биоинформатика
  • Метагеномика
  • Секвенирование нового поколения
  • Популяционная генетика
  • SNP
  • Программа обнаружения рекомбинации
  • Скимминг генома

Ссылки [ править ]

  1. ^ а б Винга С., Алмейда Дж. (март 2003 г.). «Сравнение последовательностей без выравнивания - обзор» . Биоинформатика . 19 (4): 513–23. DOI : 10.1093 / биоинформатики / btg005 . PMID  12611807 .
  2. ^ Rothberg J, Мерриман B, Хиггс G (сентябрь 2012). «Биоинформатика. Введение» . Йельский журнал биологии и медицины . 85 (3): 305–8. PMC 3447194 . PMID 23189382 .  
  3. ^ Batzoglou S (март 2005). «Многоликость выравнивания последовательностей» . Брифинги по биоинформатике . 6 (1): 6–22. DOI : 10.1093 / нагрудник / 6.1.6 . PMID 15826353 . 
  4. ^ Маллан L (март 2006). «Попарное выравнивание последовательностей - это все о нас!» . Брифинги по биоинформатике . 7 (1): 113–5. DOI : 10.1093 / нагрудник / bbk008 . PMID 16761368 . 
  5. ^ Kemena C, Notredame C (октябрь 2009). «Предстоящие проблемы для нескольких методов выравнивания последовательностей в эпоху высокой производительности» . Биоинформатика . 25 (19): 2455–65. DOI : 10.1093 / биоинформатики / btp452 . PMC 2752613 . PMID 19648142 .  
  6. Перейти ↑ Hide W, Burke J, Davison DB (1994). «Биологическая оценка d2, алгоритм для высокопроизводительного сравнения последовательностей». Журнал вычислительной биологии . 1 (3): 199–215. DOI : 10,1089 / cmb.1994.1.199 . PMID 8790465 . 
  7. Miller RT, Christoffels AG, Gopalakrishnan C, Burke J, Ptitsyn AA, Broveak TR, Hide WA (ноябрь 1999 г.). «Комплексный подход к кластеризации экспрессируемой последовательности гена человека: выравнивание по метке последовательности и консенсусная база знаний» . Геномные исследования . 9 (11): 1143–55. DOI : 10.1101 / gr.9.11.1143 . PMC 310831 . PMID 10568754 .  
  8. ^ a b c Domazet-Lošo M, Haubold B (июнь 2011 г.). «Выявление локального сходства вирусного и бактериального геномов без выравнивания» . Биоинформатика . 27 (11): 1466–72. DOI : 10.1093 / биоинформатики / btr176 . PMID 21471011 . 
  9. ^ a b c Чан CX, Рэган Массачусетс (январь 2013 г.). «Филогеномика нового поколения» . Биология Директ . 8 : 3. DOI : 10.1186 / 1745-6150-8-3 . PMC 3564786 . PMID 23339707 .  
  10. Song K, Ren J, Reinert G , Deng M, Waterman MS, Sun F (май 2014 г.). «Новые разработки в сравнении последовательностей без выравнивания: измерения, статистика и секвенирование следующего поколения» . Брифинги по биоинформатике . 15 (3): 343–53. DOI : 10.1093 / нагрудник / bbt067 . PMC 4017329 . PMID 24064230 .  
  11. ^ a b Haubold B (май 2014 г.). «Филогенетика без выравнивания и популяционная генетика» . Брифинги по биоинформатике . 15 (3): 407–18. DOI : 10.1093 / нагрудник / bbt083 . PMID 24291823 . 
  12. ^ Бонэм-Картер О, Стил Дж, Bastola D (ноябрь 2014). «Сравнение генетических последовательностей без выравнивания: обзор последних подходов с помощью анализа слов» . Брифинги по биоинформатике . 15 (6): 890–905. DOI : 10.1093 / нагрудник / bbt052 . PMC 4296134 . PMID 23904502 .  
  13. ^ Zielezinski А, Vinga S, Алмейда J, Karlowski WM (октябрь 2017 г.). «Сравнение последовательностей без выравнивания: преимущества, приложения и инструменты» . Геномная биология . 18 (1): 186. DOI : 10.1186 / s13059-017-1319-7 . PMC 5627421 . PMID 28974235 .  
  14. ^ а б Бернард Дж., Чан С.Х., Чан Й.Б., Чуа XY, Конг Й., Хоган Дж. М. и др. (Март 2019 г.). «Вывод без согласования иерархических и сетчатых филогеномных отношений» . Брифинги по биоинформатике . 20 (2): 426–435. DOI : 10.1093 / нагрудник / bbx067 . PMC 6433738 . PMID 28673025 .  
  15. Ren J, Bai X, Lu YY, Tang K, Wang Y, Reinert G, Sun F (июль 2018). "Анализ последовательности без выравнивания и приложения" . Ежегодный обзор науки о биомедицинских данных . 1 : 93–114. arXiv : 1803.09727 . Bibcode : 2018arXiv180309727R . DOI : 10,1146 / annurev-biodatasci-080917-013431 . PMC 6905628 . PMID 31828235 .  
  16. ^ Zielezinski A, Girgis HZ, Bernard G, Leimeister CA, Tang K, Dencker T и др. (Июль 2019). «Бенчмаркинг методов сравнения последовательностей без выравнивания» . Геномная биология . 20 (1): 144. DOI : 10.1186 / s13059-019-1755-7 . PMC 6659240 . PMID 31345254 .  
  17. ^ a b Sims GE, Jun SR, Wu GA, Kim SH (октябрь 2009 г.). «Полногеномная филогения млекопитающих: эволюционная информация в генных и негенных областях» . Труды Национальной академии наук Соединенных Штатов Америки . 106 (40): 17077–82. Bibcode : 2009PNAS..10617077S . DOI : 10.1073 / pnas.0909377106 . PMC 2761373 . PMID 19805074 .  
  18. Sims GE, Kim SH (май 2011 г.). «Полногеномная филогения группы Escherichia coli / Shigella по частотным профилям признаков (FFP)» . Труды Национальной академии наук Соединенных Штатов Америки . 108 (20): 8329–34. Bibcode : 2011PNAS..108.8329S . DOI : 10.1073 / pnas.1105168108 . PMC 3100984 . PMID 21536867 .  
  19. Перейти ↑ Gao L, Qi J (март 2007 г.). «Полногеномная молекулярная филогения больших вирусов дцДНК с использованием метода композиционных векторов» . BMC Evolutionary Biology . 7 : 41. DOI : 10.1186 / 1471-2148-7-41 . PMC 1839080 . PMID 17359548 .  
  20. Перейти ↑ Wang H, Xu Z, Gao L, Hao B (август 2009). «Филогения грибов на основе 82 полных геномов с использованием метода композиционных векторов» . BMC Evolutionary Biology . 9 : 195. DOI : 10.1186 / 1471-2148-9-195 . PMC 3087519 . PMID 19664262 .  
  21. ^ a b c d Kolekar P, Kale M, Kulkarni-Kale U (ноябрь 2012 г.). «Измерение расстояния без выравнивания, основанное на распределении времени возврата для анализа последовательностей: приложения для кластеризации, молекулярной филогении и подтипирования». Молекулярная филогенетика и эволюция . 65 (2): 510–22. DOI : 10.1016 / j.ympev.2012.07.003 . PMID 22820020 . 
  22. ^ Hatje K, Kollmar M (2012). «Филогенетический анализ клады brassicales на основе метода сравнения последовательностей без выравнивания» . Границы науки о растениях . 3 : 192. DOI : 10.3389 / fpls.2012.00192 . PMC 3429886 . PMID 22952468 .  
  23. ^ a b c Leimeister CA, Boden M, Horwege S, Lindner S, Morgenstern B (июль 2014 г.). «Быстрое сравнение последовательностей без выравнивания с использованием частотных интервалов» . Биоинформатика . 30 (14): 1991–9. DOI : 10.1093 / биоинформатики / btu177 . PMC 4080745 . PMID 24700317 .  
  24. ^ Apostolico A, Дэнас O (октябрь 2008). «Быстрые алгоритмы вычисления расстояний последовательностей путем исчерпывающей композиции подстроки» . Алгоритмы молекулярной биологии . 3 : 13. DOI : 10,1186 / 1748-7188-3-13 . PMC 2615014 . PMID 18957094 .  
  25. ^ Apostolico A, Дэнас O, платье (сентябрь 2010). «Эффективные инструменты для сравнительного анализа подстрок». Журнал биотехнологии . 149 (3): 120–6. DOI : 10.1016 / j.jbiotec.2010.05.006 . PMID 20682467 . 
  26. ^ a b Джеффри HJ (апрель 1990). «Хаос-игровое представление структуры гена» . Исследования нуклеиновых кислот . 18 (8): 2163–70. DOI : 10.1093 / NAR / 18.8.2163 . PMC 330698 . PMID 2336393 .  
  27. Перейти ↑ Wang Y, Hill K, Singh S, Kari L (февраль 2005 г.). «Спектр геномных сигнатур: от динуклеотидов до хаотических игровых представлений». Джин . 346 : 173–85. DOI : 10.1016 / j.gene.2004.10.021 . PMID 15716010 . 
  28. ^ Hahn л, Leimeister СА, Ounit R, S Lonardi, Моргенштерн Б (октябрь 2016). «Расбхари: Оптимизация разнесенных начальных чисел для поиска в базе данных, чтения карт и сравнения последовательностей без выравнивания» . PLOS Вычислительная биология . 12 (10): e1005107. arXiv : 1511.04001 . Bibcode : 2016PLSCB..12E5107H . DOI : 10.1371 / journal.pcbi.1005107 . PMC 5070788 . PMID 27760124 .  
  29. ^ Ноэ L (14 февраля 2017). «Лучшие результаты 11110110111: выбор без модели и расчет чувствительности без параметров для разнесенных семян» . Алгоритмы молекулярной биологии . 12 (1): 1. DOI : 10,1186 / s13015-017-0092-1 . PMC 5310094 . PMID 28289437 .  
  30. ^ a b Ноэ Л., Мартин Д.Е. (декабрь 2014 г.). «Критерий покрытия для разнесенных семян и его приложения для поддержки ядер векторных машинных строк и расстояний k-mer» . Журнал вычислительной биологии . 21 (12): 947–63. arXiv : 1412,2587 . Bibcode : 2014arXiv1412.2587N . DOI : 10,1089 / cmb.2014.0173 . PMC 4253314 . PMID 25393923 .  
  31. ^ Gusfield D (1997). Алгоритмы на строках, деревьях и последовательностях: информатика и вычислительная биология (перепечатано (с корр.) Под ред.). Кембридж [ua]: Cambridge Univ. Нажмите. ISBN 9780521585194.
  32. ^ Улицкая I, Бурштейн D, Tuller T, Чор B (март 2006). «Средний общий подход подстроки к филогеномной реконструкции». Журнал вычислительной биологии . 13 (2): 336–50. CiteSeerX 10.1.1.106.5122 . DOI : 10,1089 / cmb.2006.13.336 . PMID 16597244 .  
  33. Перейти ↑ Weiner P (1973). «Алгоритмы линейного сопоставления с образцом». 14-й ежегодный симпозиум по теории переключений и автоматов (SWAT 1973) . С. 1–11. CiteSeerX 10.1.1.474.9582 . DOI : 10.1109 / SWAT.1973.13 . 
  34. He D (2006). Использование дерева суффиксов для обнаружения сложных повторяющихся паттернов в последовательностях ДНК . Материалы конференции: ... Ежегодная международная конференция общества инженеров IEEE в медицине и биологии. IEEE Engineering in Medicine and Biology Society. Ежегодная конференция . 1 . С. 3474–7. DOI : 10.1109 / IEMBS.2006.260445 . ISBN 978-1-4244-0032-4. PMID  17945779 . S2CID  5953866 .
  35. ^ Välimäki N, Герла Вт, Диксит К, Макинно В (март 2007 г.). «Сжатое суффиксное дерево - основа для анализа последовательностей в масштабе генома» . Биоинформатика . 23 (5): 629–30. DOI : 10.1093 / биоинформатики / btl681 . PMID 17237063 . 
  36. ^ a b c Leimeister CA, Morgenstern B (июль 2014 г.). «Kmacs: метод общей подстроки со средним k-несовпадением для сравнения последовательностей без выравнивания» . Биоинформатика . 30 (14): 2000–8. DOI : 10.1093 / биоинформатики / btu331 . PMC 4080746 . PMID 24828656 .  
  37. ^ Хоболд В, Pfaffelhuber Р, Domazet-Loso М, Виэ Т (октябрь 2009 г.). «Оценка расстояния мутации от невыровненных геномов». Журнал вычислительной биологии . 16 (10): 1487–500. DOI : 10,1089 / cmb.2009.0106 . PMID 19803738 . 
  38. ^ Моргенстерн В, Schobel S, Leimeister CA (2017). "k-несовпадение общих подстрок" . Алгоритмы молекулярной биологии . 12 : 27. DOI : 10,1186 / s13015-017-0118-8 . PMC 5724348 . PMID 29238399 .  
  39. Перейти ↑ Reinert G, Chew D, Sun F, Waterman MS (декабрь 2009 г.). «Сравнение последовательностей без выравнивания (I): статистика и мощность» . Журнал вычислительной биологии . 16 (12): 1615–34. DOI : 10,1089 / cmb.2009.0198 . PMC 2818754 . PMID 20001252 .  
  40. ^ Ondov BD, Treangen TJ, Melsted P, Mallonee AB, Бергман NH, Корен S, Phillippy AM (июнь 2016). «Mash: быстрая оценка расстояния между геномами и метагеномами с использованием MinHash» . Геномная биология . 17 (1): 132. DOI : 10.1186 / s13059-016-0997-x . PMC 4915045 . PMID 27323842 .  
  41. ^ Бромберг R, Гришин Н. В., Otwinowski Z (июнь 2016). «Реконструкция филогении с помощью метода без выравнивания, который корректирует горизонтальный перенос генов» . PLOS Вычислительная биология . 12 (6): e1004985. Bibcode : 2016PLSCB..12E4985B . DOI : 10.1371 / journal.pcbi.1004985 . PMC 4918981 . PMID 27336403 .  
  42. ^ Rohling S, Ыппё А, Schellhorn Дж, Хоссеини М, Денкер Т, Моргенштерн В (2020). «Число совпадений k-мер между двумя последовательностями ДНК как функция от k и приложения для оценки филогенетических расстояний» . PLOS ONE . 15 (2): e0228070. Bibcode : 2020PLoSO..1528070R . DOI : 10.1371 / journal.pone.0228070 . PMC 7010260 . PMID 32040534 .  
  43. ^ Sarmashghi S, Bohmann К, Р Гилберта МТ, Bafna В, Mirarab S (февраль 2019). «Скмер: идентификация образцов без сборки и выравнивания с использованием снимков генома» . Геномная биология . 20 (1): 34. DOI : 10.1186 / s13059-019-1632-4 . PMC 6374904 . PMID 30760303 .  
  44. ^ a b Yi H, Jin L (апрель 2013 г.). «Со-филог: филогеномный подход без сборки для близкородственных организмов» . Исследования нуклеиновых кислот . 41 (7): e75. DOI : 10.1093 / NAR / gkt003 . PMC 3627563 . PMID 23335788 .  
  45. ^ Хоболд B, Klötzl F, Pfaffelhuber P (апрель 2015). «andi: быстрая и точная оценка эволюционных расстояний между близкородственными геномами» . Биоинформатика . 31 (8): 1169–75. DOI : 10.1093 / биоинформатики / btu815 . PMID 25504847 . 
  46. ^ a b Leimeister CA, Сохраби-Джахроми S, Моргенштерн B (апрель 2017 г.). «Быстрая и точная реконструкция филогении с использованием фильтрованных совпадений слов с интервалом» . Биоинформатика . 33 (7): 971–979. DOI : 10.1093 / биоинформатики / btw776 . PMC 5409309 . PMID 28073754 .  
  47. ^ Lau AK, Доррер S, Leimeister CA, Bleidorn C, Моргенштерн B (декабрь 2019). «Read-SpaM: сравнение бактериальных геномов без сборки и выравнивания с низким уровнем секвенирования» . BMC Bioinformatics . 20 (Suppl 20): 638. DOI : 10,1186 / s12859-019-3205-7 . PMC 6916211 . PMID 31842735 .  
  48. ^ a b Leimeister CA, Schellhorn J, Dörrer S, Gerth M, Bleidorn C, Morgenstern B (март 2019 г.). «Prot-SpaM: быстрая реконструкция филогении без выравнивания на основе последовательностей цельного протеома» . GigaScience . 8 (3): giy148. DOI : 10,1093 / gigascience / giy148 . PMC 6436989 . PMID 30535314 .  
  49. ^ Денкер Т, Leimeister СА, Герт М, Bleidorn С, Snir S, Моргенштерн В (2020). «Multi-SpaM: подход максимального правдоподобия к реконструкции филогении с использованием множественных совпадений слов с интервалом и деревьев квартетов» . НАР Геномика и биоинформатика . 2 : lqz013. DOI : 10.1093 / nargab / lqz013 .
  50. ^ Stamatakis A (ноябрь 2006). «RAxML-VI-HPC: филогенетический анализ на основе максимального правдоподобия с тысячами таксонов и смешанных моделей» . Биоинформатика . 22 (21): 2688–90. DOI : 10.1093 / биоинформатики / btl446 . PMID 16928733 . 
  51. ^ Vinga S (май 2014). «Приложения теории информации для анализа биологических последовательностей» . Брифинги по биоинформатике . 15 (3): 376–89. DOI : 10.1093 / нагрудник / bbt068 . PMC 7109941 . PMID 24058049 .  
  52. Перейти ↑ Liu Z, Meng J, Sun X (апрель 2008 г.). «Новый основанный на признаках метод филогенетического анализа всего генома без выравнивания: применение к генотипированию и подтипам HEV». Сообщения о биохимических и биофизических исследованиях . 368 (2): 223–30. DOI : 10.1016 / j.bbrc.2008.01.070 . PMID 18230342 . 
  53. ^ Лю ZH, вс X (2008). «Филогения коронавируса на основе корреляции оснований». Международный журнал исследований и приложений в области биоинформатики . 4 (2): 211–20. DOI : 10.1504 / ijbra.2008.018347 . PMID 18490264 . 
  54. Cheng J, Zeng X, Ren G, Liu Z (март 2013 г.). «CGAP: новая комплексная платформа для сравнительного анализа геномов хлоропластов» . BMC Bioinformatics . 14 : 95. DOI : 10,1186 / 1471-2105-14-95 . PMC 3636126 . PMID 23496817 .  
  55. Перейти ↑ Gao Y, Luo L (январь 2012). «Филогения на основе генома вирусов дцДНК с помощью нового метода без выравнивания». Джин . 492 (1): 309–14. DOI : 10.1016 / j.gene.2011.11.004 . PMID 22100880 . 
  56. ^ Беннет, СН, Gacs, Р., Ли, М., Vitanyi, Р. и Зурек, В., Информационное расстояние, IEEE Trans. Сообщить. Теория, 44, 1407--1423
  57. ^ Ли, М., Барсук, Дж. Х., Чен, X., Квонг, С., Кирни, П. и Zhang, H., (2001) Основанное на информации расстояние между последовательностями и его применение для филогении всего митохондриального генома. Биоинформатика, 17: (2001), 149--154
  58. ^ М. Ли, X. Чен, X. Ли, Б. Ма, PMB Vitanyi. Метрика подобия, IEEE Trans. Сообщить. Th., 50:12 (2004), 3250--3264
  59. ^ RL Cilibrasi и PMB Vitanyi, Кластеризация путем сжатия, IEEE Trans. Информат. Th., 51: 4 (2005), 1523--1545
  60. ^ Otu HH, Sayood K (ноябрь 2003). «Новая мера расстояния последовательности для построения филогенетического дерева» . Биоинформатика . 19 (16): 2122–30. DOI : 10.1093 / биоинформатики / btg295 . PMID 14594718 . 
  61. ^ Pinho AJ, Garcia SP, Pratas D, Ferreira PJ (21 ноября 2013). «Последовательности ДНК с первого взгляда» . PLOS ONE . 8 (11): e79922. Bibcode : 2013PLoSO ... 879922P . DOI : 10.1371 / journal.pone.0079922 . PMC 3836782 . PMID 24278218 .  
  62. Goldman N (май 1993 г.). «Частоты нуклеотидов, динуклеотидов и тринуклеотидов объясняют закономерности, наблюдаемые в хаотических игровых представлениях последовательностей ДНК» . Исследования нуклеиновых кислот . 21 (10): 2487–91. DOI : 10.1093 / NAR / 21.10.2487 . PMC 309551 . PMID 8506142 .  
  63. ^ Алмейда JS, Carriço JA, Maretzek A, Noble PA, Fletcher M (май 2001). «Анализ геномных последовательностей с помощью представления игры хаоса» . Биоинформатика . 17 (5): 429–37. DOI : 10.1093 / биоинформатики / 17.5.429 . PMID 11331237 . 
  64. Almeida JS (май 2014 г.). «Последовательный анализ по повторяющимся картам, обзор» . Брифинги по биоинформатике . 15 (3): 369–75. DOI : 10.1093 / нагрудник / bbt072 . PMC 4017330 . PMID 24162172 .  
  65. ↑ a b Almeida JS, Grüneberg A, Maass W, Vinga S (май 2012 г.). «Фрактальное разложение MapReduce выравнивания последовательностей» . Алгоритмы молекулярной биологии . 7 (1): 12. DOI : 10,1186 / 1748-7188-7-12 . PMC 3394223 . PMID 22551205 .  
  66. ^ Vinga S, Carvalho AM, Francisco А.П., Russo Л.М., Алмейда JS (май 2012). «Сопоставление с образцом через представление игры хаоса: соединение числовых и дискретных структур данных для анализа биологической последовательности» . Алгоритмы молекулярной биологии . 7 (1): 10. DOI : 10,1186 / 1748-7188-7-10 . PMC 3402988 . PMID 22551152 .  
  67. ^ a b Пратас Д., Сильва Р.М., Пинхо А.Дж., Феррейра П.Дж. (май 2015 г.). «Метод без выравнивания для поиска и визуализации перестроек между парами последовательностей ДНК» . Научные отчеты . 5 (10203): 10203. Bibcode : 2015NatSR ... 510203P . DOI : 10.1038 / srep10203 . PMC 4434998 . PMID 25984837 .  
  68. ^ а б Хоссейни М., Пратас Д., Моргенштерн Б., Пинхо А.Дж. (2020). «Smash ++: инструмент без выравнивания и с эффективным использованием памяти для поиска геномных перестроек» . GigaScience . 9 (5): giaa048. DOI : 10,1093 / gigascience / giaa048 . PMC 7238676 . PMID 32432328 .  
  69. Bernard G, Greenfield P, Ragan MA, Chan CX (20 ноября 2018 г.). «Сходство k-мер, сети микробных геномов и таксономический ранг» . mSystems . 3 (6): e00257–18. DOI : 10,1128 / mSystems.00257-18 . PMC 6247013 . PMID 30505941 .  
  70. ^ a b Song K, Ren J, Reinert G, Deng M, Waterman MS, Sun F (май 2014 г.). «Новые разработки в сравнении последовательностей без выравнивания: измерения, статистика и секвенирование следующего поколения» . Брифинги по биоинформатике . 15 (3): 343–53. DOI : 10.1093 / нагрудник / bbt067 . PMC 4017329 . PMID 24064230 .  
  71. ^ Brinda K, M Sykulski, Кучеров G (ноябрь 2015). «Разнесенные семена улучшают метагеномную классификацию на основе k-мер». Биоинформатика . 31 (22): 3584–92. arXiv : 1502.06256 . Bibcode : 2015arXiv150206256B . DOI : 10.1093 / биоинформатики / btv419 . PMID 26209798 . S2CID 8626694 .  
  72. ^ Ounit R, Lonardi S (декабрь 2016). «Повышенная классификационная чувствительность коротких метагеномных считываний с помощью CLARK-S» . Биоинформатика . 32 (24): 3823–3825. DOI : 10.1093 / биоинформатики / btw542 . PMID 27540266 . 
  73. ^ a b Пратас Д., Пинхо А.Дж., Сильва Р.М., Родригес Дж.М., Хоссейни М., Каэтано Т., Феррейра П.Дж. (февраль 2018 г.). «СОКОЛ: метод определения метагеномного состава древней ДНК». bioRxiv 10.1101 / 267179 . 
  74. ^ a b Wood DE, Salzberg SL (март 2014 г.). «Kraken: сверхбыстрая классификация метагеномных последовательностей с использованием точного выравнивания» . Геномная биология . 15 (3): R46. DOI : 10.1186 / GB-2014-15-3-R46 . PMC 4053813 . PMID 24580807 .  
  75. ^ Pinello L, Lo Bosco G, Юань GC (май 2014). «Применение методов без выравнивания в эпигеномике» . Брифинги по биоинформатике . 15 (3): 419–30. DOI : 10.1093 / нагрудник / bbt078 . PMC 4017331 . PMID 24197932 .  
  76. ^ La Rosa МЫ, Fiannaca А, Риццо R, Урсо А (2013). «Анализ последовательностей штрих-кода без совмещения с помощью методов сжатия» . BMC Bioinformatics . 14 Дополнение 7: S4. DOI : 10.1186 / 1471-2105-14-S7-S4 . PMC 3633054 . PMID 23815444 .  
  77. ^ a b Колекар П., Хаке Н., Кале М., Кулькарни-Кале Ю. (март 2014 г.). «WNV Typer: сервер для генотипирования вирусов Западного Нила с использованием метода без выравнивания, основанного на распределении времени возврата» . Журнал вирусологических методов . 198 : 41–55. DOI : 10.1016 / j.jviromet.2013.12.012 . PMID 24388930 . 
  78. ^ a b Struck D, юрист G, Тернес AM, Schmit JC, Bercoff DP (октябрь 2014 г.). «COMET: адаптивное контекстное моделирование для сверхбыстрой идентификации подтипа ВИЧ-1» . Исследования нуклеиновых кислот . 42 (18): e144. DOI : 10.1093 / NAR / gku739 . PMC 4191385 . PMID 25120265 .  
  79. ^ a b Димитров И., Нанева Л., Дойчинова И., Бангов И. (март 2014 г.). «AllergenFP: прогнозирование аллергенности по отпечаткам дескрипторов» . Биоинформатика . 30 (6): 846–51. DOI : 10.1093 / биоинформатики / btt619 . PMID 24167156 . 
  80. ↑ a b Gardner SN, Hall BG (9 декабря 2013 г.). «Когда выравнивание всего генома просто не работает: программа kSNP v2 для обнаружения SNP без выравнивания и филогенетики сотен микробных геномов» . PLOS ONE . 8 (12): e81760. Bibcode : 2013PLoSO ... 881760G . DOI : 10.1371 / journal.pone.0081760 . PMC 3857212 . PMID 24349125 .  
  81. ^ a b Haubold B, Krause L, Horn T, Pfaffelhuber P (декабрь 2013 г.). «Тест на рекомбинацию без выравнивания» . Биоинформатика . 29 (24): 3121–7. DOI : 10.1093 / биоинформатики / btt550 . PMC 5994939 . PMID 24064419 .  
  82. Xu Z, Hao B (июль 2009 г.). «Обновление CVTree: недавно разработанная платформа для филогенетических исследований с использованием составных векторов и полных геномов» . Исследования нуклеиновых кислот . 37 (проблема с веб-сервером): W174-8. DOI : 10.1093 / NAR / gkp278 . PMC 2703908 . PMID 19398429 .  
  83. Cheng J, Cao F, Liu Z (май 2013 г.). «AGP: мультиметодный веб-сервер для филогении генома без выравнивания» . Молекулярная биология и эволюция . 30 (5): 1032–7. DOI : 10.1093 / molbev / mst021 . PMC 7574599 . PMID 23389766 .  
  84. ^ HOHL M, Rigoutsos I, Ragan MA (февраль 2007). «Оценка филогенетических расстояний на основе шаблонов и реконструкция деревьев» . Эволюционная биоинформатика в Интернете . 2 : 359–75. arXiv : q-bio / 0605002 . Bibcode : 2006q.bio ..... 5002H . PMC 2674673 . PMID 19455227 .  
  85. Перейти ↑ Wang Y, Liu L, Chen L, Chen T, Sun F (2 января 2014 г.). «Сравнение метатранскриптомических выборок на основе частот k-кортежей» . PLOS ONE . 9 (1): e84348. Bibcode : 2014PLoSO ... 984348W . DOI : 10.1371 / journal.pone.0084348 . PMC 3879298 . PMID 24392128 .  
  86. ^ "Модуль микробной геномики CLC" . QIAGEN Bioinformatics . 2019.
  87. ^ Пратас, Диого; Сильва, Хорхе (2020). «Стойкие минимальные последовательности SARS-CoV-2» . Биоинформатика . DOI : 10.1093 / биоинформатики / btaa686 . PMC 7559010 . PMID 32730589 .