База данных последовательностей

В области биоинформатики , A базы данных последовательность представляет собой тип биологической базы данных , которая состоит из большой коллекции компьютеризированной ( « цифровой ») последовательностей нуклеиновых кислот , белковых последовательностей , или других полимерных последовательностей , хранящихся на компьютере. База данных UniProt является примером базы данных последовательностей белков . По состоянию на 2013 год он содержал более 40 миллионов последовательностей и растет с экспоненциальной скоростью. ^[1] Исторически последовательности публиковались в бумажной форме, но по мере роста числа последовательностей этот метод хранения становился неустойчивым.

Поиск

Поиск в базе данных последовательностей включает поиск сходства между запросом последовательности и последовательностями, расположенными в базе данных последовательностей, поиск последовательности в базе данных, которая «лучше всего» соответствует целевой последовательности (на основе критериев, которые меняются в зависимости от метода поиска). Количество совпадений / совпадений используется для формулирования оценки, определяющей сходство между запросом последовательности и последовательностями в базе данных последовательностей. ^[2]

Методы подсчета очков

Метод оценки сходства определяет правила, по которым набор последовательностей может считаться похожим или нет. Это два основных метода поиска сходства между последовательностями:

Локальное выравнивание : это выравнивание между двумя субпоследовательностями. Этот метод используется, когда есть подозрение, что сходны только определенные части последовательностей.

Полуглобальное выравнивание : это выравнивание двух последовательностей. Полуглобальное выравнивание - это вариант глобального выравнивания, который позволяет использовать пробелы в начале или конце одной из последовательностей, чтобы две последовательности имели одинаковую длину при выполнении сравнения.

Алгоритмы

Алгоритмы выполняют поиск. Алгоритмы нацелены на повышение эффективности за счет увеличения эффективности и чувствительности результатов. Эффективность зависит от времени работы алгоритма. Между тем, чувствительность зависит от того, сможет ли алгоритм найти все истинно положительные совпадения при сравнении последовательностей. Существуют разные типы алгоритмов, которые используются в зависимости от цели поиска. Это следующие типы:

Алгоритмы исчерпывающего поиска

Эти алгоритмы ориентированы на поиск всех возможных решений. Таким образом, они концентрируются на чувствительности, делая результаты очень точными. Обратной стороной является время работы. Smith-Waterman и Burrows-Wheeler Transform являются примерами этих алгоритмов.

Алгоритмы эвристического поиска

Эти алгоритмы ориентированы на более быстрое выполнение, а не на качество результатов. Эти алгоритмы используются, когда пользователю нужно найти максимально быстрое решение с приемлемым результатом. Однако решение может быть не самым точным. FASTA и BLAST являются примерами этих алгоритмов.

Актуальные вопросы

Записи в базах данных последовательностей депонируются из самых разных источников, от отдельных исследователей до крупных центров секвенирования генома. В результате сами последовательности, и особенно биологические аннотации, прикрепленные к этим последовательностям, могут различаться по качеству. Существует много избыточности, так как несколько лабораторий могут отправлять множество последовательностей, которые идентичны или почти идентичны другим в базах данных. ^[3]

Многие аннотации последовательностей основаны не на лабораторных экспериментах, а на результатах поиска сходства последовательностей для ранее аннотированных последовательностей. После того, как последовательность была аннотирована на основе сходства с другими и сама помещена в базу данных, она также может стать основой для будущих аннотаций. Это может привести к проблеме транзитивных аннотаций, потому что может быть несколько таких переносов аннотаций по схожести последовательностей между конкретной записью в базе данных и фактической экспериментальной информацией влажной лаборатории . ^[4] Следовательно, следует соблюдать осторожность при интерпретации данных аннотаций из баз данных последовательностей.

Смотрите также

Внешние ссылки

Базы данных Европейского института биоинформатики
NCBI полностью секвенировал геномы
Стэнфордская база данных генома сахаромицетов
Protein , база данных белков NIH , набор последовательностей из нескольких источников, включая переводы из аннотированных кодирующих областей в GenBank , RefSeq и TPA , а также записи из SwissProt , PIR , PRF и PDB

[1] Cochrane, G .; Karsch-Mizrachi, I .; Накамура Ю. (23 ноября 2010 г.). "Международное сотрудничество с базами данных нуклеотидных последовательностей" . Исследования нуклеиновых кислот . 39 (База данных): D15 – D18. DOI : 10.1093 / NAR / gkq1150 . PMC 3013722 . PMID 21106499 .

[2] Сун, Винг-Кин (2010). Алгоритмы в биоинформатике: практическое введение . Бока-Ратон: Chapman & Hall / CRC Press. п. 109. ISBN 9781420070330.

[Sikic-2010-3] Sikic, K .; Каруго, О. (2010). «Снижение избыточности белковой последовательности: сравнение различных методов» . Биоинформация . 5 (6): 234–9. DOI : 10.6026 / 97320630005234 . PMC 3055704 . PMID 21364823 .

[Iliopoulos-2003-4] Iliopoulos, I .; Цока, С .; Андраде, Массачусетс .; Энрайт, AJ .; Кэрролл, М .; Poullet, P .; Промпонас, В .; Liakopoulos, T .; и другие. (Апрель 2003 г.). «Оценка стратегии аннотации с использованием всей последовательности генома» . Биоинформатика . 19 (6): 717–26. DOI : 10.1093 / биоинформатики / btg077 . PMID 12691983 .

[1]