Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Pfam - это база данных семейств белков, которая включает их аннотации и множественные сопоставления последовательностей, созданные с использованием скрытых марковских моделей . [1] [2] [3] Самая последняя версия, Pfam 33.1, была выпущена в мае 2020 года и содержит 18 259 семейств. [4]

Использует [ редактировать ]

Общая цель базы данных Pfam - предоставить полную и точную классификацию семейств и доменов белков. [5] Изначально основанием для создания базы данных было наличие полуавтоматического метода сбора информации об известных семействах белков для повышения эффективности аннотирования геномов. [6] Классификация семейств белков Pfam была широко принята биологами из-за широкого охвата белков и разумных соглашений об именах. [7]

Он используется биологами-экспериментаторами, изучающими определенные белки, биологами-структурниками для определения новых целей для определения структуры, биологами-компьютерщиками для организации последовательностей и биологами-эволюционистами, отслеживающими происхождение белков. [8] Ранние проекты генома, такие как человек и муха, широко использовали Pfam для функциональной аннотации геномных данных. [9] [10] [11]

Веб-сайт Pfam позволяет пользователям отправлять последовательности белков или ДНК для поиска совпадений с семьями в базе данных. Если отправляется ДНК, выполняется шестикадровая трансляция , затем выполняется поиск в каждом кадре. [12] Вместо того, чтобы выполнять типичный поиск BLAST , Pfam использует модели Маркова со скрытым профилем , которые придают больший вес совпадениям в консервативных сайтах, что позволяет лучше определять удаленную гомологию, что делает их более подходящими для аннотирования геномов организмов без хорошо аннотированных близких родственников. . [13]

Pfam также использовался при создании других ресурсов, таких как iPfam , который каталогизирует доменно -доменные взаимодействия внутри и между белками, основываясь на информации в базах данных структур и отображении доменов Pfam на эти структуры. [14]

Особенности [ править ]

Для каждой семьи в Pfam можно:

  • Посмотреть описание семьи
  • Посмотрите на несколько выравниваний
  • Просмотр архитектур белковых доменов
  • Изучить распространение видов
  • Переходите по ссылкам на другие базы данных
  • Просмотр известных белковых структур

Записи могут быть нескольких типов: семейные, доменные, повторяющиеся или по мотивам. Семья - это класс по умолчанию, который просто указывает на то, что члены связаны между собой. Домены определяются как автономная структурная единица или единица последовательности многократного использования, которая может быть найдена во множестве белковых контекстов. Повторы обычно не стабильны в отдельности, а обычно требуются для образования тандемных повторов, чтобы сформировать домен или расширенную структуру. Мотивы обычно представляют собой более короткие единицы последовательности, обнаруживаемые вне глобулярных доменов. [9]

Описание семейств Pfam осуществляется широкой публикой с помощью Википедии (см. Историю ).

На момент выпуска 29.0 76,1% белковых последовательностей в UniprotKB соответствовали по крайней мере одному домену Pfam. [15]

Создание новых записей [ править ]

Новые семейства поступают из ряда источников, в первую очередь из PDB и анализа полных протеомов для поиска генов без попадания Pfam. [16]

Для каждого семейства репрезентативное подмножество последовательностей выравнивается в высококачественное выравнивание семян. Последовательности для выравнивания семян берутся в основном из pfamseq (неизбыточная база данных эталонных протеомов) с некоторыми дополнениями из UniprotKB . [15] Это начальное выравнивание затем используется для построения модели Маркова со скрытым профилем с использованием HMMER . Затем этот HMM просматривается в базах данных последовательностей, и все совпадения, которые достигают заданного порога сбора, классифицируются как члены семейства белков. Полученный набор элементов затем выравнивается по профилю HMM для создания полного выравнивания.

Для каждого семейства назначается вручную подобранный порог сбора, который максимизирует количество истинных совпадений с семейством, исключая любые ложноположительные совпадения. Ложноположительные результаты оцениваются путем наблюдения совпадений между попаданиями в семейство Pfam, принадлежащих к разным кланам. Этот порог используется для оценки того, должно ли совпадение с семейством HMM быть включено в семейство белков. При каждом обновлении Pfam пороговые значения сбора повторно оцениваются, чтобы предотвратить дублирование между новыми и существующими семействами. [16]

Домены неизвестной функции [ править ]

Домены неизвестной функции (DUF) представляют растущую часть базы данных Pfam. Семейства названы так потому, что было обнаружено, что они сохраняются у разных видов, но выполняют неизвестную роль. Каждому вновь добавленному DUF присваивается имя в порядке добавления. Имена этих записей обновляются по мере определения их функций. Обычно, когда функция по крайней мере одного белка, принадлежащего DUF, была определена, функция всего DUF обновляется, и семейство переименовывается. Некоторые названные семейства все еще являются доменами с неизвестной функцией, названными в честь репрезентативного белка, например YbbR. Ожидается, что количество DUF будет продолжать увеличиваться, поскольку в данных последовательностей продолжают идентифицироваться консервативные последовательности с неизвестной функцией. Ожидается, что DUF в конечном итоге превзойдут по численности семейства с известными функциями.[16]

Кланы [ править ]

Со временем охват последовательностей и остатков увеличился, и по мере роста семей было обнаружено больше эволюционных взаимосвязей, что позволило группировать семьи в кланы. [8] Кланы были впервые представлены в базе данных Pfam в 2005 году. Они представляют собой группы родственных семейств, имеющих единое эволюционное происхождение, что подтверждается сравнениями структур, функций, последовательностей и HMM. [5] На момент выпуска 29.0 примерно одна треть семейств белков принадлежала клану. [15] Эта доля выросла примерно до трех четвертей к 2019 году (версия 32.0). [17]

Чтобы определить возможные клановые отношения, кураторы Pfam используют программу простого сравнения результатов (SCOOP), а также информацию из базы данных ECOD. [17] ECOD - это полуавтоматическая иерархическая база данных семейств белков с известной структурой, с семействами, которые легко сопоставляются с записями Pfam и уровнями гомологии, которые обычно сопоставляются с кланами Pfam. [18]

История [ править ]

Pfam была основана в 1995 году Эриком Сонхаммером, Шоном Эдди и Ричардом Дурбином как набор часто встречающихся белковых доменов, которые можно использовать для аннотирования кодирующих белки генов многоклеточных животных. [6] Одной из основных целей проекта было помощь в аннотации генома C. elegans . [6] Проект был частично вызван утверждением Сайруса Чотиа «Тысяча семейств для молекулярного биолога» о том, что существует около 1500 различных семейств белков и что большинство белков попадает только в 1000 из них. [5] [19]Вопреки этому утверждению, база данных Pfam в настоящее время содержит 16 306 записей, соответствующих уникальным доменам и семействам белков. Однако многие из этих семейств содержат структурные и функциональные сходства, указывающие на общее эволюционное происхождение (см. Кланы ). [5]

Основным отличием Pfam от других баз данных на момент их создания было использование двух типов выравнивания для записей: меньшее выравнивание семян, проверяемое вручную, а также полное выравнивание, построенное путем выравнивания последовательностей по модели Маркова со скрытым профилем. построен из выравнивания семян. Это меньшее выравнивание семян было легче обновлять по мере выхода новых выпусков баз данных последовательностей, и, таким образом, представляло многообещающее решение дилеммы о том, как поддерживать базу данных в актуальном состоянии, поскольку секвенирование генома стало более эффективным и со временем требовалось обрабатывать больше данных. . Дальнейшее улучшение скорости обновления базы данных произошло в версии 24.0 с введением HMMER3, который примерно в 100 раз быстрее, чем HMMER2, и более чувствителен. [8]

Поскольку записи в Pfam-A не охватывают все известные белки, была предоставлена ​​автоматически созданная добавка под названием Pfam-B. Pfam-B содержал большое количество небольших семейств, полученных из кластеров, созданных с помощью алгоритма ADDA. [20] Несмотря на более низкое качество, семейства Pfam-B могут быть полезны, когда не обнаружены семейства Pfam-A. Pfam-B был прекращен в версии 28.0 [21], а затем повторно представлен в версии 33.1 с использованием нового алгоритма кластеризации MMSeqs2. [22]

Изначально Pfam размещался на трех зеркальных сайтах по всему миру для сохранения избыточности. Однако в период с 2012 по 2014 год ресурс Pfam был перемещен в EMBL-EBI , что позволило размещать веб-сайт из одного домена (xfam.org) с использованием дублирующих независимых центров обработки данных. Это позволило улучшить централизацию обновлений и группировку с другими проектами Xfam , такими как Rfam , TreeFam , iPfam и другими, при сохранении критической устойчивости, обеспечиваемой хостингом из нескольких центров. [23]

За последние два года Pfam претерпела существенную реорганизацию, чтобы еще больше сократить ручные усилия, связанные с курированием, и обеспечить более частое обновление. [15]

Курирование сообщества [ править ]

При курировании такой большой базы данных возникли проблемы с точки зрения того, чтобы не отставать от объема новых семейств и обновленной информации, которую необходимо было добавить. Чтобы ускорить выпуск базы данных, разработчики выдвинули ряд инициатив, позволяющих активнее вовлекать сообщество в управление базой данных.

Важным шагом в улучшении темпа обновления и улучшения записей было открытие функциональной аннотации доменов Pfam для сообщества Википедии в версии 26.0. [16] Для записей, у которых уже была запись в Википедии, она была связана со страницей Pfam, а для тех, у которых ее не было, сообществу было предложено создать ее и проинформировать кураторов, чтобы на нее можно было разместить ссылку. ожидается, что, хотя участие сообщества значительно улучшит уровень аннотации этих семейств, некоторые из них останутся недостаточно примечательными для включения в Википедию, и в этом случае они сохранят свое первоначальное описание Pfam. Некоторые статьи в Википедии касаются нескольких семейств, например, Zinc fingerстатья. Также была реализована автоматическая процедура создания статей на основе данных InterPro и Pfam, при которой страница заполняется информацией и ссылками на базы данных, а также доступными изображениями, а затем после того, как статья была просмотрена куратором, она перемещается из песочницы в Собственно Википедия. Чтобы предотвратить вандализм статей, каждая редакция Википедии проверяется кураторами перед тем, как она будет размещена на веб-сайте Pfam. Однако почти все случаи вандализма исправлялись сообществом до того, как они доходили до кураторов. [16]

Pfam управляется международным консорциумом, состоящим из трех групп. В более ранних версиях Pfam семейные записи могли быть изменены только на сайте Кембриджа, Великобритания, что ограничивало возможность членов консорциума участвовать в курировании сайта. В версии 26.0 разработчики перешли на новую систему, которая позволяла зарегистрированным пользователям в любой точке мира добавлять или изменять семейства Pfam. [16]

См. Также [ править ]

  • Список биологических баз данных
  • База данных Rfam для консервативных семейств некодирующих РНК
  • TreeFam База данных филогенетических деревьев генов животных
  • База данных TrEMBL, выполняющая автоматическую аннотацию последовательностей белков
  • InterPro Интеграция баз данных доменов белков и семейств белков
  • PDBfam - тщательное отнесение доменов Pfam к последовательностям в банке данных белков (PDB) [24] [25]

Ссылки [ править ]

  1. ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). «База данных семейств белков Pfam» . Nucleic Acids Res . 36 (выпуск базы данных): D281–8. DOI : 10.1093 / NAR / gkm960 . PMC 2238907 . PMID 18039703 .  
  2. ^ Финн, РД; Mistry, J .; Schuster-Böckler, B .; Griffiths-Jones, S .; Hollich, V .; Lassmann, T .; Moxon, S .; Marshall, M .; Khanna, A .; Durbin, R .; Эдди, SR; Sonnhammer, EL; Бейтман, А. (январь 2006 г.). «Pfam: кланы, веб-инструменты и сервисы» (Полный текст) . Исследования нуклеиновых кислот . 34 (выпуск базы данных): D247 – D251. DOI : 10.1093 / NAR / gkj149 . ISSN 0305-1048 . PMC 1347511 . PMID 16381856 .    
  3. ^ Бейтман, А .; Монета, л .; Дурбин, Р .; Финн, РД; Hollich, V .; Griffiths-Jones, S .; Khanna, A .; Marshall, M .; Moxon, S .; Sonnhammer, EL; Studholme, DJ; Yeats, C .; Эдди, SR (2004). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 32 (выпуск базы данных): 138D – 1141. DOI : 10.1093 / NAR / gkh121 . ISSN 0305-1048 . PMC 308855 . PMID 14681378 .   
  4. ^ Финн, Роб; Мистри, Джайна (8 марта 2017 г.). «Выпущен Pfam 31.0» . Блог Xfam . Проверено 13 марта 2017 года .
  5. ^ a b c d Саммут, Стивен; Финн, Роберт Д.; Бейтман, Алекс (2008). «Pfam 10 лет спустя: 10 000 семей и продолжают расти» . Брифинги по биоинформатике . 9 (3): 210–219. DOI : 10.1093 / нагрудник / bbn010 . PMID 18344544 . 
  6. ^ a b c Зоннхаммер, Эрик LL; Эдди, Шон Р .; Дурбин, Ричард (1997). "Pfam: Комплексная база данных семейств белковых доменов на основе выравнивания семян". Белки . 28 (3): 405–420. DOI : 10.1002 / (sici) 1097-0134 (199707) 28: 3 <405 :: aid-prot10> 3.0.co; 2-л . PMID 9223186 . 
  7. ^ Сюй, Цифан; Данбрак, Роланд Л. (2012). «Отнесение белковых последовательностей к существующим системам классификации доменов и семейств: Pfam и PDB» . Биоинформатика . 28 (21): 2763–2772. DOI : 10.1093 / биоинформатики / bts533 . PMC 3476341 . PMID 22942020 .  
  8. ^ a b c Финн, РД; Mistry, J .; Tate, J .; Coggill, P .; Heger, A .; Поллингтон, Дж. Э .; Гэвин, О.Л .; Gunasekaran, P .; Ceric, G .; Forslund, K .; Holm, L .; Sonnhammer, ELL; Эдди, SR; Бейтман, А. (2009). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 38 (База данных): D211 – D222. DOI : 10.1093 / NAR / gkp985 . ISSN 0305-1048 . PMC 2808889 . PMID 19920124 .   
  9. ^ a b Бейтман А., Бирни Е., Черрути Л., Дурбин Р., Этвиллер Л., Эдди С. Р., Гриффитс-Джонс С., Хоу К. Л., Маршалл М., Зоннхаммер Е. Л. (2002). «База данных семейств белков Pfam» . Nucleic Acids Res . 30 (1): 276–80. DOI : 10.1093 / NAR / 30.1.276 . PMC 99071 . PMID 11752314 .  
  10. ^ Адамс, доктор медицины, Сельникер С.Е., Холт Р.А., Эванс, Калифорния, Гокейн Дж. Д. и др. (2000). «Последовательность генома Drosophila melanogaster». Наука . 287 (5461): 2185–95. Bibcode : 2000Sci ... 287.2185. . CiteSeerX 10.1.1.549.8639 . DOI : 10.1126 / science.287.5461.2185 . PMID 10731132 .  
  11. ^ Лендер, Эрик S .; Linton, Lauren M .; Биррен, Брюс; Нусбаум, Чад; Зоди, Майкл С .; и другие. (2001). «Первоначальное секвенирование и анализ генома человека» . Природа . 409 (6822): 860–921. DOI : 10.1038 / 35057062 . ISSN 0028-0836 . PMID 11237011 .  
  12. ^ Финн, Роберт Д .; Бейтман, Алекс; Клементс, Джоди; Коггилл, Пенелопа; Eberhardt, Ruth Y .; Эдди, Шон Р .; Хегер, Андреас; Хетерингтон, Кирсти; Холм, Лийза; Мистри, Джайна; Sonnhammer, Erik LL; Тейт, Джон; Пунта, Марко (2014). «Pfam: база данных семейств белков» . Исследования нуклеиновых кислот . 42 (D1): D222 – D230. DOI : 10.1093 / NAR / gkt1223 . ISSN 0305-1048 . PMC 3965110 . PMID 24288371 .   
  13. ^ Sonnhammer Е.Л., Eddy SR, Birney Е, Бэтемэн А, Дарбина R (1998). «Pfam: множественное выравнивание последовательностей и HMM-профили белковых доменов» . Nucleic Acids Res . 26 (1): 320–2. DOI : 10.1093 / NAR / 26.1.320 . PMC 147209 . PMID 9399864 .  
  14. ^ Финн, РД; Marshall, M .; Бейтман, А. (2004). «iPfam: визуализация белок-белковых взаимодействий в PDB при разрешении доменов и аминокислот» . Биоинформатика . 21 (3): 410–412. DOI : 10.1093 / биоинформатики / bti011 . ISSN 1367-4803 . PMID 15353450 .  
  15. ^ a b c d Финн, Роберт Д.; Коггилл, Пенелопа; Eberhardt, Ruth Y .; Эдди, Шон Р .; Мистри, Джайна; Митчелл, Алекс Л .; Поттер, Саймон С .; Пунта, Марко; Куреши, Матлоб; Санградор-Вегас, Амайя; Салазар, Густаво А .; Тейт, Джон; Бейтман, Алекс (2016). «База данных семейств белков Pfam: к более устойчивому будущему» . Исследования нуклеиновых кислот . 44 (D1): D279 – D285. DOI : 10.1093 / NAR / gkv1344 . ISSN 0305-1048 . PMC 4702930 . PMID 26673716 .   
  16. ^ a b c d e е Пунта, М .; Coggill, ПК; Eberhardt, RY; Mistry, J .; Tate, J .; Boursnell, C .; Pang, N .; Forslund, K .; Ceric, G .; Clements, J .; Heger, A .; Holm, L .; Sonnhammer, ELL; Эдди, SR; Bateman, A .; Финн, RD (2011). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 40 (D1): D290 – D301. DOI : 10.1093 / NAR / gkr1065 . ISSN 0305-1048 . PMC 3245129 . PMID 22127870 .   
  17. ^ а б Эль-Гебали, Сара; Мистри, Джайна; Бейтман, Алекс; Эдди, Шон Р.; Лучани, Орелиен; Поттер, Саймон С; Куреши, Матлоб; Ричардсон, Лорна Дж; Салазар, Густаво А; Умный, Альфредо; Sonnhammer, Erik LL; Хирш, Лейла; Паладин, Лисанна; Пиовезан, Дамиано; Тосатто, Сильвио CE; Финн, Роберт Д. (8 января 2019 г.). «База данных семейств белков Pfam в 2019 году» . Исследования нуклеиновых кислот . 47 (D1): D427 – D432. DOI : 10.1093 / NAR / gky995 . PMC 6324024 . PMID 30357350 .  
  18. ^ «Эволюционная классификация белковых доменов» . prodata.swmed.edu . Проверено 18 мая 2019 .
  19. ^ Chothia, Cyrus (1992). «Тысяча семей для молекулярного биолога». Природа . 357 (6379): 543–544. Bibcode : 1992Natur.357..543C . DOI : 10.1038 / 357543a0 . ISSN 0028-0836 . PMID 1608464 . S2CID 4355476 .   
  20. ^ Heger, A .; Уилтон, Калифорния; Sivakumar, A .; Холм, Л. (январь 2005 г.). «ADDA: база данных предметной области с глобальным охватом белковой вселенной» (полный текст) . Исследования нуклеиновых кислот . 33 (выпуск базы данных): D188 – D191. DOI : 10.1093 / NAR / gki096 . ISSN 0305-1048 . PMC 540050 . PMID 15608174 .    
  21. ^ «Примечания к выпуску Pfam 28.0» . Проверено 30 июня 2015 года .
  22. ^ "Выпущен новый Pfam-B" . Блог Xfam . 30 июня 2020.
  23. ^ «Переход на xfam.org» . Проверено 25 ноября +2016 .
  24. ^ Данбрак, Роланд. «ПДБфам» . Онкологический центр Фокса Чейза . Проверено 9 марта 2013 года .
  25. ^ Сюй, Цифан; Данбрак, Роланд (2012). «Отнесение белковых последовательностей к существующим системам классификации доменов и семейств: Pfam и PDB» . Биоинформатика . 28 (21): 2763–72. DOI : 10.1093 / биоинформатики / bts533 . PMC 3476341 . PMID 22942020 .  

Внешние ссылки [ править ]

  • Pfam - база данных по семейству белков в EBI UK
  • iPfam - Взаимодействие доменов Pfam в PDB
  • PDBfam - Присвоение доменов Pfam последовательностям в PDB в онкологическом центре Fox Chase, США
  • PlantTFDB - правила присвоения семейств для факторов транскрипции растений на основе доменов Pfam