БЛАТ (биоинформатика)

BLAT ( инструмент BLAST -подобного выравнивания) — это алгоритм парного выравнивания последовательностей , разработанный Джимом Кентом из Калифорнийского университета в Санта-Крузе (UCSC) в начале 2000-х для помощи в сборке и аннотации генома человека . ^[1] Он был разработан в первую очередь для сокращения времени, необходимого для сопоставления миллионов считываний генома мыши и тегов экспрессированной последовательности с последовательностью генома человека. Инструменты выравнивания того времени не были способны выполнять эти операции таким образом, чтобы обеспечить регулярное обновление сборки генома человека. По сравнению с ранее существовавшими инструментами BLAT работал примерно в 500 раз быстрее при выполнении выравнивания мРНК / ДНК и примерно в 50 раз быстрее при выравнивании белок /белок. ^[1]

BLAT — это один из множества алгоритмов, разработанных для анализа и сравнения биологических последовательностей, таких как ДНК, РНК и белки, с основной целью определения гомологии для выявления биологической функции геномных последовательностей. ^[2] Не гарантируется нахождение математически оптимального выравнивания между двумя последовательностями, как это делают классические алгоритмы динамического программирования Нидлмана-Вунша ^[3] и Смита-Уотермана ^[4] ; скорее, он сначала пытается быстро обнаружить короткие последовательности, которые с большей вероятностью будут гомологичными, а затем выравнивает и дополнительно расширяет гомологичные области. Это похоже на эвристический BLAST ^[5]^[6]семейство алгоритмов, но каждый инструмент пытался решить проблему своевременного и эффективного выравнивания биологических последовательностей, используя различные алгоритмические методы. ^[2]^[7]

BLAT можно использовать для выравнивания последовательностей ДНК, а также последовательностей белков и транслируемых нуклеотидов (мРНК или ДНК). Он предназначен для лучшей работы с последовательностями с большим сходством. Поиск ДНК наиболее эффективен для приматов, а поиск белков — для наземных позвоночных. ^[1]^[8] Кроме того, запросы белков или транслированных последовательностей более эффективны для выявления отдаленных совпадений и межвидового анализа, чем запросы последовательностей ДНК. ^[9] Типичные варианты использования BLAT включают следующее:

BLAT предназначен для поиска совпадений между последовательностями длиной не менее 40 оснований, которые имеют ≥95% идентичности нуклеотидов или ≥80% идентичности транслируемого белка. ^[9]^[10]

BLAT используется для поиска областей в целевой геномной базе данных, которые аналогичны исследуемой последовательности запроса. Общий алгоритмический процесс, за которым следует BLAT, аналогичен BLAST в том, что он сначала ищет короткие сегменты в базе данных и последовательностях запросов, которые имеют определенное количество совпадающих элементов. Затем эти семена выравнивания расширяются в обоих направлениях последовательностей, чтобы сформировать пары с высокими показателями. ^[12] Однако BLAT использует отличный от BLAST подход к индексированию, который позволяет быстро сканировать очень большие геномные и белковые базы данных на предмет сходства с последовательностью запроса. Он делает это, сохраняя индексированный список ( хэш-таблица) целевой базы данных в памяти, что значительно сокращает время, необходимое для сравнения последовательностей запросов с целевой базой данных. Этот индекс строится путем получения координат всех непересекающихся k-меров (слов с k буквами) в целевой базе данных, за исключением часто повторяющихся k-меров. Затем BLAT строит список всех перекрывающихся k-меров из последовательности запроса и ищет их в целевой базе данных, создавая список попаданий, в которых есть совпадения между последовательностями ^[1] (рис. 1 иллюстрирует этот процесс).

При выравнивании нуклеотидов BLAT использует третий метод, требующий двух полных совпадений слов размера 11 (11-меров). При выравнивании белков версия BLAT определяет используемую методологию поиска: когда используется версия клиент/сервер, BLAT ищет три идеальных совпадения 4-меров; когда используется автономная версия, BLAT ищет один идеальный 5-мер между последовательностями запроса и базы данных. ^[1]

Рисунок 1: Пример, показывающий создание непересекающихся k-меров из целевой базы данных и перекрывающихся k-меров из последовательности запросов для k=3. Координаты последовательностей базы данных используются для объединения совпадений в более крупные выравнивания (полный процесс не показан).

Рисунок 2: Использование веб-системы BLAT для поиска в целевой базе данных с последовательностью запроса ДНК. Параметры поиска можно увидеть над последовательностью запроса ^[8]^[14]