Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

HH-люкс представляет собой программное обеспечение с открытым исходным кодом пакет для чувствительного белка поиска последовательности. Он содержит программы, которые могут искать похожие последовательности белков в базах данных последовательностей белков. Поиск последовательностей - стандартный инструмент в современной биологии, с помощью которого функция неизвестных белков может быть выведена из функций белков с аналогичными последовательностями. HHsearch и HHblits две основные программы в пакете и точкой входа в ее функции поиска, причем последняя итерация быстрее. [2] [3] HHpred - это онлайн-сервер для предсказания структуры белков , использующий информацию о гомологии из HH-Suite. [4]

HH-пакет выполняет поиск последовательностей с использованием скрытых марковских моделей (HMM). Название происходит от того факта, что он выполняет выравнивание HMM-HMM. По данным Google Scholar, среди самых популярных методов сопоставления последовательностей белков программы были упомянуты более 5000 раз . [5]

Фон [ править ]

Белки играют центральную роль во всех жизненных процессах. Понимание их имеет центральное значение для понимания молекулярных процессов в клетках. Это особенно важно для понимания происхождения болезней. Но для большей части из примерно 20 000 белков человека структуры и функции остаются неизвестными. Многие белки были исследованы на модельных организмах, таких как многие бактерии, пекарские дрожжи, плодовые мушки, рыбы-зебры или мыши, эксперименты с которыми часто легче проводить, чем с человеческими клетками. Чтобы предсказать функцию, структуру или другие свойства белка, для которого известна только его последовательность аминокислот, последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных. Если обнаружен белок с достаточно похожей последовательностью,два белка, вероятно, будут эволюционно связаны («гомологичный» ). В этом случае они, вероятно, будут иметь схожие структуры и функции. Следовательно, если белок с достаточно похожей последовательностью и с известными функциями и / или структурой может быть обнаружен с помощью поиска последовательности, можно предсказать функции, структуру и состав домена неизвестного белка. Такие прогнозы значительно облегчают определение функции или структуры с помощью целевых проверочных экспериментов.

Поиски последовательности часто выполняются биологами, чтобы сделать вывод о функции неизвестного белка по его последовательности. Для этого последовательность белка сравнивается с последовательностями других белков в общедоступных базах данных, и его функция определяется на основе функций наиболее похожих последовательностей. Часто при таком поиске не удается найти последовательности с аннотированными функциями. В этом случае требуются более чувствительные методы для идентификации более отдаленно связанных белков или семейств белков . Исходя из этих взаимосвязей, возникают гипотезы о функциях, структуре и составе домена белка.можно сделать вывод. HHsearch выполняет поиск последовательности белков в базах данных. Сервер HHpred и программный пакет HH-suite предлагают множество популярных, регулярно обновляемых баз данных, таких как Protein Data Bank , а также базы данных InterPro , Pfam , COG и SCOP .

Алгоритм [ править ]

Схема итеративного поиска HHblits

Современные чувствительные методы поиска белков используют профили последовательностей. Их можно использовать для сравнения последовательности с профилем или, в более сложных случаях, таких как HH-suite, для сопоставления профилей. [2] [6] [7] [8] Сами профили и выравнивания выводятся из совпадений, например, с использованием PSI-BLAST или HHblits. Позиции конкретного скоринг матрицы (PSSM) профиль содержит для каждой позиции в последовательности запроса в баллах подобия для 20 аминокислот. Профили получены из нескольких выравниваний последовательностей.(MSA), в которых родственные белки записаны вместе (выровнены), так что частоты аминокислот в каждой позиции можно интерпретировать как вероятности для аминокислот в новых родственных белках и использовать для получения «оценок сходства». Поскольку профили содержат гораздо больше информации, чем одна последовательность (например, степень сохранения, зависящая от положения), методы сравнения профиль-профиль намного мощнее, чем методы сравнения последовательность-последовательность, такие как BLAST, или методы сравнения профиля-последовательности, такие как PSI-BLAST. [6]

HHpred и HHsearch представляют белки запроса и базы данных с помощью скрытых профилей марковских моделей (HMM), расширения профилей последовательностей PSSM, которые также регистрируют частоты вставки и удаления аминокислот, специфичные для положения. HHsearch выполняет поиск в базе данных HMM с помощью запроса HMM. Перед началом поиска в реальной базе данных HMM, HHsearch / HHpred строит множественное выравнивание последовательностей последовательностей, связанных с запрашиваемой последовательностью / MSA, используя программу HHblits. Из этого выравнивания рассчитывается профиль HMM. Базы данных содержат HMM, которые предварительно вычисляются таким же образом с помощью PSI-BLAST. Результатом HHpred и HHsearch является ранжированный список совпадений базы данных (включая E-значения и вероятности истинного отношения) и попарного выравнивания последовательностей запроса и базы данных.

HHblits, входящая в состав HH-набора с 2001 года, строит высококачественные множественные выравнивания последовательностей (MSA), начиная с одной запрашиваемой последовательности или MSA. Как и в PSI-BLAST, он работает итеративно, многократно создавая новые профили запросов, добавляя результаты, полученные в предыдущем раунде. Он сопоставляется с предварительно созданными базами данных HMM, полученными из баз данных последовательностей белков, каждая из которых представляет собой «кластер» связанных белков. В случае HHblits такие совпадения выполняются на уровне профилей HMM-HMM, что обеспечивает дополнительную чувствительность. Его предварительная фильтрация сокращает десятки миллионов HMM для сопоставления до нескольких тысяч, тем самым ускоряя медленный процесс сравнения HMM-HMM. [3]

HH-suite поставляется с рядом предварительно созданных профильных HMM, которые можно искать с помощью HHblits и HHsearch, среди них кластерная версия базы данных UniProt , банка данных белков белков с известной структурой, выравниваний семейств белков Pfam , из СКОП структурного белковых доменов, и многое другое. [9]

Приложения [ править ]

Приложения HHpred и HHsearch включают прогнозирование структуры белка, прогнозирование сложной структуры, прогнозирование функций, прогнозирование домена, прогнозирование границ домена и эволюционную классификацию белков. [10]

HHsearch часто используется для моделирования гомологии , то есть для построения модели структуры запрашиваемого белка, для которой известна только последовательность: для этой цели выполняется поиск в базе данных белков с известной структурой, такой как банк данных белков. «шаблонные» белки, подобные белку запроса. Если такой белок-матрица обнаружен, структура представляющего интерес белка может быть предсказана на основе попарного выравнивания последовательности запроса с последовательностью белка-матрицы. Например, поиск в базе данных PDB белков с решенной трехмерной структурой занимает несколько минут. Если в базе данных PDB обнаружено значительное совпадение с белком известной структуры («шаблон»), HHpred позволяет пользователю построить модель гомологии, используяПрограммное обеспечение MODELLER , начиная с попарного выравнивания запроса и шаблона.

Серверы HHpred были признаны одними из лучших серверов в рамках CASP 7, 8 и 9 для экспериментов по слепому предсказанию структуры белка. В CASP9 HHpredA, B и C заняли 1-е, 2-е и 3-е место из 81 участвующих серверов автоматического прогнозирования структуры в моделировании на основе шаблонов [11] и 6-е, 7-е, 8-е для всех 147 целей, при этом они были намного быстрее, чем 20 лучших серверов. [12] В CASP 8 HHpred занял 7-е место по всем целям и 2-е по подмножеству однодоменных белков, при этом все еще более чем в 50 раз быстрее, чем серверы с самым высоким рейтингом. [4]

Содержание [ править ]

Помимо HHsearch и HHblits, HH-набор содержит программы и сценарии Perl для преобразования формата, фильтрации MSA, генерации профилей HMM, добавления прогнозов вторичной структуры в MSA, извлечения выравниваний из вывода программы и генерации настраиваемые базы данных.

Алгоритм выравнивания HMM-HMM HHblits и HHsearch был значительно ускорен с использованием векторных инструкций в версии 3 HH-набора. [13]

Ссылки [ править ]

  1. ^ Пакет Debian hhsuite
  2. ^ а б Сёдинг Дж (2005). «Определение гомологии белков путем сравнения HMM-HMM» . Биоинформатика . 21 (7): 951–960. DOI : 10.1093 / биоинформатики / bti125 . PMID  15531603 .
  3. ^ а б Реммерт М, Бигерт А, Хаузер А, Сёдинг Дж (2011). «HHblits: Молниеносный итеративный поиск белковой последовательности путем выравнивания HMM-HMM» (PDF) . Nat. Методы . 9 (2): 173–175. DOI : 10.1038 / NMETH.1818 . hdl : 11858 / 00-001M-0000-0015-8D56-A . PMID 22198341 . S2CID 205420247 .   
  4. ^ а б Сёдинг Дж, Бигерт А, Лупас АН (2005). «Интерактивный сервер HHpred для определения гомологии белков и предсказания структуры» . Исследования нуклеиновых кислот . 33 (выпуск веб-сервера): W244–248. DOI : 10.1093 / NAR / gki408 . PMC 1160169 . PMID 15980461 .  
  5. ^ Ссылки на HHpred , на HHsearch , на HHblits
  6. ^ a b Ярошевский Л., Рыхлевский Л., Годзик А. (2000). «Повышение качества выравнивания сумеречной зоны» . Белковая наука . 9 (8): 1487–1496. DOI : 10.1110 / ps.9.8.1487 . PMC 2144727 . PMID 10975570 .  
  7. ^ Sadreyev Р.И., Baker D, Гришин Н. В. (2003). «Сравнение профиля с помощью COMPASS предсказывает сложные гомологии между семействами белков» . Белковая наука . 12 (10): 2262–2272. DOI : 10.1110 / ps.03197403 . PMC 2366929 . PMID 14500884 .  
  8. ^ Dunbrack RL - младший (2006). «Сравнение последовательностей и предсказание структуры белка». Текущее мнение в структурной биологии . 16 (3): 374–384. DOI : 10.1016 / j.sbi.2006.05.006 . PMID 16713709 . 
  9. ^ Ли, Чжаоюй. «Некоторые заметки о HHSuite» . Проверено 3 апреля 2019 . CS1 maint: обескураженный параметр ( ссылка )
  10. ^ Guerler А, Govindarajoo В, Чжан Y (2013). «Отображение мономерных нитей для предсказания белок-белковой структуры» . Журнал химической информации и моделирования . 53 (3): 717–25. DOI : 10.1021 / ci300579r . PMC 4076494 . PMID 23413988 .  
  11. ^ Официальные результаты CASP9 для категории моделирования на основе шаблонов (121 цель)
  12. ^ Официальные результаты CASP9 для всех 147 целей
  13. ^ Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S, Söding J (2019). «HH-suite3 для быстрого удаленного обнаружения гомологии и глубокой аннотации белков» . BMC Bioinformatics . 20 (1): 473. DOI : 10,1186 / s12859-019-3019-7 . PMC 6744700 . PMID 31521110 .  

См. Также [ править ]

  • Программное обеспечение для выравнивания последовательностей
  • Прогноз структуры белка
  • Матрица оценок для конкретной позиции
  • Множественное выравнивание последовательностей
  • CASP - Критическая оценка методов прогнозирования структуры белка
  • BLAST (Базовый инструмент поиска локального выравнивания)
  • Зависящий от контекста BLAST (CS-BLAST)

Внешние ссылки [ править ]

  • Лаборатория Содинга в Институте Макса Планка в Геттингене - разработчики HH-suite
  • Предварительно скомпилированные двоичные файлы и базы данных HH-suite загружаются от разработчиков
  • HHpred - бесплатный сервер в Институте Макса Планка в Тюбингене
  • HHblits - бесплатный сервер в Институте Макса Планка в Тюбингене
  • Сайт CASP
  • Результаты моделирования на основе шаблонов CASP9
  • Пакет Debian HH-suite
  • Пакет HH-suite ubuntu
  • Репозиторий пользователей HH-Suite Arch Linux