Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Профиль HMM, моделирующий множественное выравнивание последовательностей

HMMER - это бесплатный и широко используемый пакет программного обеспечения для анализа последовательностей, написанный Шоном Эдди . [2] Обычно он используется для идентификации гомологичных белковых или нуклеотидных последовательностей и для выполнения выравнивания последовательностей. Он определяет гомологию, сравнивая профиль-HMM либо с одной последовательностью, либо с базой данных последовательностей. Последовательности, которые значительно лучше оценивают профиль-HMM по сравнению с нулевой моделью, считаются гомологичными последовательностям, которые использовались для построения профиля-HMM. Profile-HMM конструируются из множественного выравнивания последовательностей в пакете HMMER с использованием hmmbuildпрограмма. Реализация Profile-HMM, используемая в программном обеспечении HMMER, была основана на работе Крога и его коллег. [3] HMMER - это консольная утилита, портированная на все основные операционные системы , включая различные версии Linux , Windows и Mac OS .

HMMER - это основная утилита, на которой основаны базы данных семейств белков, такие как Pfam и InterPro . Некоторые другие инструменты биоинформатики, такие как UGENE, также используют HMMER.

HMMER3 также широко использует векторные инструкции для увеличения скорости вычислений. Эта работа основана на более ранней публикации, показывающей значительное ускорение алгоритма Смита-Уотермана для выравнивания двух последовательностей. [4]

Профиль HMM [ править ]

Профиль HMM представляет собой вариант HMM, относящийся конкретно к биологическим последовательностям. Профильные HMM превращают множественное выравнивание последовательностей в позиционно-специфичную систему оценки, которую можно использовать для выравнивания последовательностей и поиска в базах данных отдаленно гомологичных последовательностей. [5] Они извлекают выгоду из того факта, что определенные позиции в выравнивании последовательностей имеют тенденцию иметь смещения, в которых наиболее вероятно встречаются остатки, и, вероятно, будут различаться по своей вероятности содержания вставки или делеции. Сбор этой информации дает им лучшую способность обнаруживать истинные гомологи, чем традиционные подходы, основанные на BLAST , которые в равной степени наказывают замены, вставки и делеции, независимо от того, где в выравнивании они происходят. [6]

Архитектура HMM основного профиля, используемая HMMER .

Профили HMM сосредоточены вокруг линейного набора состояний соответствия (M), при этом одно состояние соответствует каждому согласованному столбцу в выравнивании последовательностей. Каждое состояние M испускает один остаток (аминокислоту или нуклеотид). Вероятность выделения конкретного остатка в значительной степени определяется частотой, с которой этот остаток наблюдается в этом столбце выравнивания, но также включает предварительную информацию о структурах остатков, которые имеют тенденцию одновременно встречаться в тех же столбцах выравнивания последовательностей. Эта последовательность состояний соответствия, излучающих аминокислоты с определенной частотой, аналогична матрицам оценок для конкретных позиций или матрицам весов. [5]

Профиль HMM развивает это моделирование выравнивания последовательностей, моделируя вставки и делеции с использованием состояний I и D, соответственно. Состояния D не испускают остаток, а состояния I испускают остаток. Несколько состояний I могут возникать последовательно, что соответствует нескольким остаткам между согласованными столбцами в выравнивании. Состояния M, I и D связаны вероятностями перехода между состояниями, которые также варьируются в зависимости от положения в выравнивании последовательностей, чтобы отразить различную частоту вставок и удалений при выравнивании последовательностей. [5]

В выпусках HMMER2 и HMMER3 использовалась архитектура для построения HMM профиля, называемая архитектурой Plan 7, названной в честь семи состояний, зафиксированных моделью. В дополнение к трем основным состояниям (M, I и D) шесть дополнительных состояний захватывают негомологичную фланкирующую последовательность при выравнивании. Эти 6 состояний в совокупности важны для контроля того, как последовательности выровнены с моделью, например, может ли последовательность иметь несколько последовательных совпадений с одной и той же моделью (в случае последовательностей с несколькими экземплярами одного и того же домена). [7]

Программы в пакете HMMER [ править ]

Пакет HMMER состоит из набора программ для выполнения функций с использованием профильных скрытых марковских моделей. [8] Программы включают:

Профиль здания HMM [ править ]

  • hmmbuild - создать профильные HMM из нескольких выравниваний последовательностей

Поиск гомологии [ править ]

  • hmmscan - поиск белковых последовательностей) по базе данных профиля HMM
  • hmmsearch - поиск HMM профиля по базе данных последовательностей
  • jackhmmer - итеративный поиск последовательностей в базе данных белков
  • nhmmer - поиск запросов ДНК / РНК в базе данных последовательностей ДНК / РНК
  • nhmmscan - поиск нуклеотидных последовательностей по нуклеотидному профилю
  • phmmer - поиск последовательностей белков по базе данных белков

Другие функции [ править ]

  • hmmalign - выравнивает последовательности по профилю HMM
  • hmmemit - производить образцы последовательностей из профиля HMM
  • hmmlogo - создать данные для логотипа HMM из файла HMM

Пакет содержит множество других специализированных функций.

Веб-сервер HMMER [ править ]

Помимо программного обеспечения, функция поиска HMMER доступна в виде веб-сервера. [9] Служба облегчает поиск по ряду баз данных, включая базы данных последовательностей, такие как UniProt , SwissProt и Protein Data Bank , а также базы данных HMM, такие как Pfam , TIGRFAMs и SUPERFAMILY . Поддерживаются четыре типа поиска: phmmer, hmmsearch, hmmscan и jackhmmer (см. Программы ). Функция поиска принимает отдельные последовательности, а также выравнивание последовательностей или профили HMM.

Результаты поиска сопровождаются отчетом о таксономической разбивке и доменной организации обращений. Затем результаты поиска можно фильтровать по любому параметру.

Веб-сервис в настоящее время находится в ведении Европейского института биоинформатики (EBI) в Великобритании, а разработка алгоритма все еще выполняется командой Шона Эдди в Соединенных Штатах. [9] Основные причины перемещения веб-службы заключались в том, чтобы усилить вычислительную инфраструктуру в EBI и связать поисковые запросы HMMER с соответствующими базами данных, которые также поддерживаются EBI.

Релиз HMMER3 [ править ]

Последним стабильным выпуском HMMER является версия 3.0. HMMER3 - это полная переработка более раннего пакета HMMER2 с целью повышения скорости поиска HMM по профилю. Основные изменения описаны ниже:

Повышение скорости [ править ]

Основной целью проекта HMMER3, начатого в 2004 г., было повышение скорости поиска HMMER. Хотя поиск гомологии на основе профилей HMM был более точным, чем подходы на основе BLAST, их более низкая скорость ограничивала их применимость. [8] Основной выигрыш в производительности достигается благодаря эвристическому фильтру, который находит высокопоставленные неотмеченные совпадения в последовательностях базы данных с профилем запроса. Эта эвристика дает время вычислений, сравнимое с BLAST, с небольшим влиянием на точность. Дальнейшее повышение производительности связано с моделью логарифмического правдоподобия, которая не требует калибровки для оценки E-значений и позволяет использовать более точные предварительные оценки для вычисления значимостигомологичная последовательность. [10] [6]

HMMER по-прежнему отстает от BLAST по скорости поиска на основе ДНК, однако поиск на основе ДНК может быть настроен таким образом, что улучшение скорости происходит за счет точности. [11]

Улучшения в удаленном поиске гомологии [ править ]

Значительный прогресс в скорости стал возможным благодаря разработке подхода к расчету значимости результатов, интегрированных по диапазону возможных согласований. [10] При обнаружении удаленных гомологов выравнивание между запрашивающим и поражающим белками часто бывает очень неопределенным. В то время как большинство инструментов для выравнивания последовательностей рассчитывают оценки совпадений, используя только лучшее согласование, HMMER3 вычисляет оценки совпадений путем интегрирования всех возможных выравниваний, чтобы учесть неопределенность, при которой выравнивание является наилучшим. Выравнивания последовательностей HMMER сопровождаются аннотациями апостериорной вероятности, указывающими, какие части выравнивания получили высокую достоверность, а какие - более неопределенные.

Сравнение последовательностей ДНК [ править ]

Основным улучшением HMMER3 стало включение инструментов сравнения ДНК / ДНК. HMMER2 имел функцию только для сравнения белковых последовательностей.

Ограничение на местные выравнивания [ править ]

В то время как HMMER2 может выполнять локальное выравнивание (выравнивание полной модели с подпоследовательностью мишени) и глобальное выравнивание (выравнивание полной модели с полной последовательностью мишени), HMMER3 выполняет только локальное выравнивание. Это ограничение связано с трудностью вычисления значимости совпадений при выполнении локального / глобального выравнивания с использованием нового алгоритма.

См. Также [ править ]

  • Скрытая марковская модель
  • Программное обеспечение для выравнивания последовательностей
  • Pfam
  • UGENE

Доступно несколько реализаций профильных методов HMM и связанных методов матриц оценок для конкретных позиций. Некоторые из них перечислены ниже:

  • HH-люкс
  • СЭМ
  • PSI-BLAST
  • MMseqs2
  • PFTOOLS
  • GENEWISE
  • PROBE [ постоянная неработающая ссылка ]
  • МЕТА-цМем
  • БЛОКИ
  • GPU-HMMER
  • DeCypherHMM

Ссылки [ править ]

  1. ^ "Выпуск 3.3.2" . 27 ноября 2020 . Дата обращения 11 декабря 2020 .
  2. ^ Дурбин, Ричард; Шон Р. Эдди; Андерс Крог ; Грэм Митчисон (1998). Анализ биологической последовательности: вероятностные модели белков и нуклеиновых кислот . Издательство Кембриджского университета. ISBN 0-521-62971-3.
  3. ^ Крог A, M Brown, Миан IS, Сджоландер K, Хаусслер D (февраль 1994). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». J. Mol. Биол . 235 (5): 1501–31. DOI : 10.1006 / jmbi.1994.1104 . PMID 8107089 . 
  4. Перейти ↑ Farrar M (январь 2007 г.). «Полосатый Smith-Waterman ускоряет поиск в базе данных в шесть раз по сравнению с другими реализациями SIMD». Биоинформатика . 23 (2): 156–61. DOI : 10.1093 / биоинформатики / btl582 . PMID 17110365 . 
  5. ^ а б в Эдди, SR (1998). «Профильные скрытые марковские модели» . Биоинформатика . 14 (9): 755–63. DOI : 10.1093 / биоинформатики / 14.9.755 . PMID 9918945 . 
  6. ^ a b Эдди, Шон Р .; Пирсон, Уильям Р. (20 октября 2011 г.). «Ускоренный поиск профиля HMM» . PLOS Вычислительная биология . 7 (10): e1002195. Bibcode : 2011PLSCB ... 7E2195E . CiteSeerX 10.1.1.290.1476 . DOI : 10.1371 / journal.pcbi.1002195 . PMC 3197634 . PMID 22039361 .   
  7. ^ Эдди, Шон. «Руководство пользователя HMMER2» (PDF) .
  8. ^ а б Шон Р. Эдди; Трэвис Дж. Уиллер. «Руководство пользователя HMMER» (PDF) . и команда разработчиков HMMER . Проверено 23 июля 2017 года .
  9. ^ а б Финн, Роберт Д.; Клементс, Джоди; Арндт, Уильям; Миллер, Бенджамин Л .; Уиллер, Трэвис Дж .; Шрайбер, Фабиан; Бейтман, Алекс; Эдди, Шон Р. (1 июля 2015 г.). «Веб-сервер HMMER: обновление 2015 г.» . Исследования нуклеиновых кислот . 43 (W1): W30 – W38. DOI : 10.1093 / NAR / gkv397 . PMC 4489315 . PMID 25943547 .  
  10. ^ а б Эдди SR (2008). Рост, Буркхард (ред.). «Вероятностная модель локального выравнивания последовательностей, упрощающая оценку статистической значимости» . PLOS Comput Biol . 4 (5): e1000069. Bibcode : 2008PLSCB ... 4E0069E . DOI : 10.1371 / journal.pcbi.1000069 . PMC 2396288 . PMID 18516236 .  
  11. ^ Шон Р. Эдди; Трэвис Дж. Уиллер. «Примечания к выпуску HMMER3.1b2» . и команда разработчиков HMMER . Проверено 23 июля 2017 года .

Внешние ссылки [ править ]

  • Официальный веб-сайт
  • Объявление HMMER3
  • Запись в блоге о политике HMMER в отношении товарных знаков, авторских прав, патентов и лицензирования