Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

InterPro - это база данных семейств белков, доменов и функциональных сайтов, в которых идентифицируемые особенности, обнаруженные в известных белках, могут быть применены к новым белковым последовательностям [2] для их функциональной характеристики. [3] [4]

Содержимое InterPro состоит из диагностических сигнатур и белков, которым они существенно соответствуют. Сигнатуры состоят из моделей (простых типов, таких как регулярные выражения, или более сложных, таких как скрытые марковские модели ), которые описывают семейства белков, домены или сайты. Модели строятся из аминокислотных последовательностей известных семейств или доменов, и впоследствии они используются для поиска неизвестных последовательностей (например, возникающих в результате нового секвенирования генома) с целью их классификации. Каждая из баз данных членов Interpro вносит свой вклад в другую нишу, от очень высокого уровня, структура на основе классификации ( надсемейство и CATH-Gene3D) до весьма конкретных суб-семейных классификаций ( РАСПЕЧ иПАНТЕРА ).

Намерение InterPro состоит в том, чтобы предоставить единое окно для классификации белков, где все подписи, произведенные различными базами данных участников, помещаются в записи в базе данных InterPro. Подписи, представляющие эквивалентные домены, сайты или семейства, помещаются в одну и ту же запись, и записи также могут быть связаны друг с другом. Дополнительная информация, такая как описание, согласованные названия и термины генной онтологии (GO), связана с каждой записью, где это возможно.

Данные, содержащиеся в InterPro [ править ]

InterPro содержит три основных объекта: белки, сигнатуры (также называемые «методами» или «моделями») и записи. Белки в UniProtKBтакже являются центральными белками в InterPro. Информация о том, какие сигнатуры в значительной степени соответствуют этим белкам, вычисляется по мере того, как последовательности публикуются UniProtKB, и эти результаты становятся общедоступными (см. Ниже). Совпадения сигнатур с белками - вот что определяет, как сигнатуры интегрируются вместе в записи InterPro: сравнительное перекрытие совпадающих наборов протеинов и расположение совпадений сигнатур в последовательностях используются в качестве индикаторов родства. В InterPro интегрируются только подписи, которые считаются достаточно качественными. Начиная с версии 81.0 (выпущенной 21 августа 2020 г.) записи InterPro аннотировали 73,9% остатков, обнаруженных в UniProtKB, а еще 9,2% аннотировались подписями, ожидающими интеграции. [5]

Покрытие остатков UniProtKB записями InterPro начиная с InterPro версии 81.0. [5]

InterPro также включает данные для вариантов сплайсинга и белков, содержащихся в базах данных UniParc и UniMES.

Базы данных участников консорциума InterPro [ править ]

Подписи InterPro поступают из 13 "баз данных участников", которые перечислены ниже.

CATH-Gene3D
Описывает семейства белков и доменную архитектуру в полных геномах. Семейства белков формируются с использованием алгоритма кластеризации Маркова с последующим кластеризацией по множеству связей в соответствии с идентичностью последовательностей. Картирование доменов предсказанной структуры и последовательности осуществляется с использованием скрытых библиотек моделей Маркова, представляющих домены CATH и Pfam . Функциональная аннотация предоставляется белкам из нескольких ресурсов. Функциональное предсказание и анализ доменных архитектур доступны на сайте Gene3D.
CDD
База данных консервативных доменов - это ресурс аннотации белков, который состоит из коллекции аннотированных моделей выравнивания нескольких последовательностей для древних доменов и полноразмерных белков. Они доступны в виде позиционно-зависимых матриц оценок (PSSM) для быстрой идентификации консервативных доменов в белковых последовательностях с помощью RPS-BLAST.
ХАМАП
Стенды для высококачественного автоматизированного и ручного аннотации микробных протеомов. Профили HAMAP создаются вручную опытными кураторами, которые идентифицируют белки, которые являются частью хорошо законсервированных семейств или подсемейств белков бактериальных, архей и пластид (т.е. хлоропластов, цианелл, апикопластов, нефотосинтетических пластид).
MobiDB
MobiDB - это база данных с аннотациями внутренних нарушений в белках.
ПАНТЕРА
PANTHER - это большая коллекция семейств белков, которые были подразделены на функционально связанные подсемейства с использованием человеческого опыта. Эти подсемейства моделируют дивергенцию конкретных функций внутри семейств белков, обеспечивая более точную связь с функцией (контролируемые человеком молекулярные функции и классификации биологических процессов и схемы путей), а также вывод аминокислот, важных для функциональной специфичности. Скрытые марковские модели (HMM) построены для каждого семейства и подсемейства для классификации дополнительных белковых последовательностей.
Pfam
Это большая коллекция множественных выравниваний последовательностей и скрытых марковских моделей, охватывающих многие общие белковые домены и семейства.
13 баз данных-членов консорциума InterPro, сгруппированных по методу построения сигнатур и биологическим объектам, на которых они сосредоточены. [6]
ПИРСФ
Система классификации белков - это сеть с множеством уровней разнообразия последовательностей от суперсемейств до подсемейств, которая отражает эволюционные отношения полноразмерных белков и доменов. Первичной единицей классификации PIRSF является гомеоморфное семейство, члены которого одновременно гомологичны (произошли от общего предка) и гомеоморфны (разделяют сходство полноразмерных последовательностей и общую архитектуру домена).
ПЕЧАТИ
PRINTS - это сборник белковых отпечатков пальцев. Отпечаток пальца - это группа консервативных мотивов, используемых для характеристики семейства белков; его диагностические возможности улучшаются за счет итеративного сканирования UniProt. Обычно мотивы не перекрываются, а разделяются по последовательности, хотя в трехмерном пространстве они могут быть смежными. Отпечатки пальцев могут кодировать белковые складки и функциональные возможности более гибко и мощно, чем отдельные мотивы, их полная диагностическая эффективность проистекает из взаимного контекста, предоставляемого соседними мотивами.
PROSITE
PROSITE - это база данных семейств и доменов белков. Он состоит из биологически значимых сайтов, паттернов и профилей, которые помогают надежно идентифицировать, к какому известному семейству белков (если есть) принадлежит новая последовательность.
УМНАЯ
Простой инструмент исследования модульной архитектуры. Позволяет идентифицировать и аннотировать генетически мобильные домены, а также анализировать доменные архитектуры. Обнаруживается более 800 семейств доменов, обнаруженных в сигнальных, внеклеточных и связанных с хроматином белках. Эти домены широко аннотированы в отношении филетических распределений, функционального класса, третичных структур и функционально важных остатков.
СУПЕРСЕМЬЯ
SUPERFAMILY - это библиотека профильных скрытых марковских моделей, которые представляют все белки известной структуры. Библиотека основана на классификации белков SCOP : каждая модель соответствует домену SCOP и предназначена для представления всего суперсемейства SCOP , к которому принадлежит домен. SUPERFAMILY был использован для выполнения структурных привязок ко всем полностью секвенированным геномам.
ЮФО
Иерархическая классификация ферментов, которая связывает определенные особенности структуры последовательности с конкретными химическими возможностями.
ТИГРФАМ
TIGRFAM - это набор семейств белков, включающий тщательно отобранные несколько выравниваний последовательностей, скрытые марковские модели (HMM) и аннотации, которые обеспечивают инструмент для идентификации функционально связанных белков на основе гомологии последовательностей. Те элементы, которые являются «эквивалентными», группируют гомологичные белки, консервативные в отношении функции.

Типы данных [ править ]

InterPro состоит из семи типов данных, предоставляемых разными членами консорциума:

Иконки, которые идентифицируют пять типов записей, найденных в InterPro (гомологичное суперсемейство, семейство, домен, повторение или сайт). [7]

Типы записей InterPro [ править ]

Записи InterPro можно разделить на пять типов:

  • Гомологичное суперсемейство : группа белков, имеющих общее эволюционное происхождение, что видно по их структурному сходству, даже если их последовательности не очень похожи. Эти записи специально предоставлены только двумя базами данных: CATH-Gene3D и SUPERFAMILY.
  • Семейство : группа белков, имеющих общее эволюционное происхождение, определяемое структурным сходством, родственными функциями или гомологией последовательностей .
  • Домен: отдельная единица в белке с определенной функцией, структурой или последовательностью.
  • Повторение: последовательность аминокислот, обычно не более 50 аминокислот, которая имеет тенденцию многократно повторяться в белке.
  • Сайт: короткая последовательность аминокислот, в которой сохраняется хотя бы одна аминокислота. К ним относятся сайты посттрансляционной модификации , консервативные сайты, сайты связывания и активные сайты .

Доступ [ редактировать ]

База данных доступна для поиска на основе текста и последовательностей через веб-сервер и для загрузки через анонимный FTP. Как и другие базы данных EBI , она находится в открытом доступе , поскольку ее содержимое может использоваться «любым человеком и для любых целей». [8] InterPro стремится публиковать данные каждые 8 ​​недель, обычно в течение дня после выпуска тех же белков UniProtKB.

Интерфейс прикладного программирования InterPro (API) [ править ]

InterPro предоставляет API для программного доступа ко всем записям InterPro и связанным с ними записям в формате Json . [9] Существует шесть основных конечных точек API, соответствующих различным типам данных InterPro: запись, белок, структура, таксономия, протеом и набор.

ИнтерПроСкан [ править ]

InterProScan - это программный пакет, который позволяет пользователям сканировать последовательности по подписям баз данных участников. Пользователи могут использовать это программное обеспечение для сканирования сигнатур для функциональной характеристики новых нуклеотидных или белковых последовательностей. [10] InterProScan часто используется в геномных проектах для получения «первичной» характеристики интересующего генома. [11] [12] По состоянию на декабрь 2020 года в общедоступной версии InterProScan (v5.x) используется архитектура на основе Java . [13] Программный пакет в настоящее время поддерживается только в 64-битной операционной системе Linux .

InterProScan, наряду со многими другими инструментами биоинформатики EMBL-EBI, также может быть доступен программно с помощью API-интерфейсов RESTful и SOAP Web Services. [14]

См. Также [ править ]

  • Семейство белков
  • Область неизвестной функции
  • Мотив последовательности

Ссылки [ править ]

  1. ^ Блюм М., Чанг Х.Й., Чугуранский С., Грего Т., Кандасаами С., Митчелл А. и др. (Ноябрь 2020 г.). «База данных доменов и семейств белков InterPro: 20 лет спустя» . Исследование нуклеиновых кислот : gkaa977. DOI : 10.1093 / NAR / gkaa977 . PMID  33156333 .
  2. ^ Хантер С., Джонс П., Митчелл А., Апвейлер Р., Аттвуд Т.К., Бейтман А. и др. (Январь 2012 г.). «InterPro в 2011 году: новые разработки в базе данных прогнозирования семей и доменов» . Исследования нуклеиновых кислот . 40 (выпуск базы данных): D306-12. DOI : 10.1093 / NAR / gkr948 . PMC 3245097 . PMID 22096229 .  
  3. ^ Apweiler R , Эттвуд ТК , Bairoch , Бэтемэн , Birney Е , Бисвас М., и др. (Январь 2001 г.). «База данных InterPro, интегрированный ресурс документации для семейств белков, доменов и функциональных сайтов» . Исследования нуклеиновых кислот . 29 (1): 37–40. DOI : 10.1093 / NAR / 29.1.37 . PMC 29841 . PMID 11125043 .  
  4. ^ Apweiler R , Эттвуд ТК , Bairoch , Бэтемэн , Birney Е , Бисвас М., и др. (Декабрь 2000 г.). «InterPro - интегрированный ресурс документации по семействам, доменам и функциональным сайтам белков» . Биоинформатика . 16 (12): 1145–50. DOI : 10.1093 / биоинформатика / 16.12.1145 . PMID 11159333 . 
  5. ^ a b Блюм, Маттиас; Чанг, Синь-Ю; Чугуранский, Сара; Грего, Тьяго; Кандасаами, Сваати; Митчелл, Алекс; Nuka, Подарок; Пайсан-Лафосс, Тайфайн; Куреши, Мэтлоб; Радж, Шрия; Ричардсон, Лорна (06.11.2020). «База данных доменов и семейств белков InterPro: 20 лет спустя» . Исследование нуклеиновых кислот : gkaa977. DOI : 10.1093 / NAR / gkaa977 . ISSN 0305-1048 . 
  6. ^ EMBL-EBI. «Откуда берутся данные? | ИнтерПро» . Проверено 4 декабря 2020 .
  7. ^ EMBL-EBI. «Типы записей InterPro | InterPro» . Проверено 4 декабря 2020 .
  8. ^ «Условия использования услуг EMBL-EBI | Европейский институт биоинформатики» .
  9. ^ «Как загрузить данные InterPro? - Документация InterPro» . interpro-documentation.readthedocs.io . Проверено 4 декабря 2020 .
  10. ^ Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R (июль 2005 г.). «ИнтерПроСкан: идентификатор белковых доменов» (Полный текст) . Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W116-20. DOI : 10.1093 / NAR / gki442 . PMC 1160203 . PMID 15980438 .   
  11. ^ Lander ES , Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J и др. (Февраль 2001 г.). «Первоначальное секвенирование и анализ генома человека» (PDF) . Природа . 409 (6822): 860–921. Bibcode : 2001Natur.409..860L . DOI : 10.1038 / 35057062 . PMID 11237011 .  
  12. ^ Холт Р.А., Субраманиан Г.М., Халперн А., Саттон Г.Г., Чарлаб Р., Нусскерн Д.Р. и др. (Октябрь 2002 г.). «Последовательность генома малярийного комара Anopheles gambiae». Наука . 298 (5591): 129–49. Bibcode : 2002Sci ... 298..129H . CiteSeerX 10.1.1.149.9058 . DOI : 10.1126 / science.1076181 . PMID 12364791 . S2CID 4512225 .   
  13. ^ Джонс П., Биннс Д., Чанг Х.Й., Фрейзер М., Ли В., МакАнулла С. и др. (Май 2014 г.). «InterProScan 5: классификация функций белков в масштабе генома» . Биоинформатика . 30 (9): 1236–40. DOI : 10.1093 / биоинформатики / btu031 . PMC 3998142 . PMID 24451626 .  
  14. Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N и др. (Июль 2019). «API-интерфейсы инструментов поиска и анализа последовательности EMBL-EBI в 2019 году» . Исследования нуклеиновых кислот . 47 (W1): W636 – W641. DOI : 10.1093 / NAR / gkz268 . PMC 6602479 . PMID 30976793 .  

Внешние ссылки [ править ]

  • Официальный сайт - веб-сервер