Выравнивание последовательностей


Выра́внивание после́довательностей — биоинформатический метод, основанный на размещении двух или более последовательностей мономеров ДНК, РНК или белков друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Сходство первичных структур двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи[1]. Выровненные последовательности оснований нуклеотидов или аминокислот обычно представляются в виде строк матрицы. Добавляются разрывы между основаниями таким образом, чтобы одинаковые или похожие элементы были расположены в следующих друг за другом столбцах матрицы[2].

В большинстве представлений результата выравнивания последовательности располагаются в строчках матрицы таким образом, что совпадающие элементы (нуклеотиды или аминокислоты) находятся один под другим (в одной колонке). «Разрывы» заменяются знаком «-», именуемый гэпом (от англ. «gap»)[4], и обозначает индель[en], то есть место возможной вставки или делеции[5][2].

При текстовом отображении возможна просто запись в формате fasta, когда последовательности записываются с гэпами, и имеют одинаковую длину[6]. Такой вид записи часто используется программами, и удобен для машинной обработки[7].

Другой вид текстового представления служит для удобства пользователя (три разных примера представлены ниже). В нём последовательности записываются одна под другой, а в строчке между ними разными символами обозначены разные отношения между аминокислотами. Пробелом (отсутствием символа) обозначают отсутствие связи между аминокислотами, как по гомологии, так и по функции: символами «*», "|" или же буквой (BLAST) — одинаковые аминокислоты; «:» или «+» — близкие по свойствам; «.» — сходные по свойствам[8].

Графическое представление максимально ориентированно на визуальное восприятие. В нём также принято размещать последовательности одну под другой, но значение связи между аминокислотами из разных последовательностей обозначаются цветом. Есть окраски по свойствам аминокислот, такие как «Zappo», окрашивающая каждую аминокислоту, и «Clustal», окрашивающая столбцы с одинаковыми свойствами аминокислот. Часть окрасок, такие как «%Identity», позволяет увидеть идентичность и консервативность аминокислот в столбце. Есть и окраски, показывающие степень гидрофобности аминокислот[10].

Наиболее известные программы для просмотра выравниваний: Jalview[en][9], UGENE[11], MEGA[en][12]. Полный список представлен в статье «List of alignment visualization software» (англ).