Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

UniProt - это свободно доступная база данных последовательностей белков и функциональной информации, многие записи взяты из проектов секвенирования генома . Он содержит большой объем информации о биологической функции белков, взятой из исследовательской литературы. Он поддерживается консорциумом UniProt, который состоит из нескольких европейских биоинформатических организаций и фонда из Вашингтона, округ Колумбия , США.

Консорциум UniProt [ править ]

Консорциум UniProt включает Европейский институт биоинформатики (EBI), Швейцарский институт биоинформатики (SIB) и Информационный ресурс по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome Campus в Хинкстоне, Великобритания, содержит большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Expert Protein Analysis System), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, размещенный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Маргарет Дейхофф.Атлас последовательности и структуры белков, впервые опубликованный в 1965 году. [2] В 2002 году EBI, SIB и PIR объединились в консорциум UniProt. [3]

Корни баз данных UniProt [ править ]

Каждый член консорциума принимает активное участие в обслуживании и аннотации базы данных белков. До недавнего времени EBI и SIB вместе производили базы данных Swiss-Prot и TrEMBL, в то время как PIR производил базу данных последовательностей белков (PIR-PSD). [4] [5] [6] Эти базы данных сосуществовали с различным покрытием последовательностей белков и приоритетами аннотаций.

Swiss-Prot был создан в 1986 году Амосом Байрохом, когда он защитил докторскую диссертацию, разработан Швейцарским институтом биоинформатики и впоследствии разработан Рольфом Апвайлером из Европейского института биоинформатики . [7] [8] [9] Swiss-Prot стремился предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описание функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. Д.) ), минимальный уровень резервированияи высокий уровень интеграции с другими базами данных. Понимая, что данные о последовательностях генерируются со скоростью, превышающей возможности Swiss-Prot, была создана TrEMBL (Библиотека данных транслируемых нуклеотидных последовательностей EMBL) для предоставления автоматизированных аннотаций для тех белков, которых нет в Swiss-Prot. Между тем, PIR поддерживал PIR-PSD и связанные базы данных, включая iProClass , базу данных последовательностей белков и кураторских семейств.

Члены консорциума объединили свои совпадающие ресурсы и опыт и запустили UniProt в декабре 2003 года. [10]

Организация баз данных UniProt [ править ]

UniProt предоставляет четыре основные базы данных: UniProtKB (с частями Swiss-Prot и TrEMBL), UniParc, UniRef.

UniProtKB [ править ]

База знаний UniProt (UniProtKB) - это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB / Swiss-Prot (содержащий проверенные, аннотированные вручную записи) и UniProtKB / TrEMBL (содержащий непроверенные, автоматически аннотированные записи). [11] По состоянию на 19 марта 2014 года выпуск «2014_03» UniProtKB / Swiss-Prot содержит 542 782 записи последовательности (включая 193 019 802 аминокислоты, взятые из 226 896 ссылок), а выпуск «2014_03» UniProtKB / TrEMBL содержит 54 247 468 записей последовательности (включая 17 207 833 179 аминокислот). кислоты). [12] [13]

UniProtKB / Swiss-Prot [ править ]

UniProtKB / Swiss-Prot - это аннотированная вручную неизбыточная база данных последовательностей белков. Он сочетает в себе информацию, извлеченную из научной литературы, и компьютерный анализ, оцененный биокуратором. Цель UniProtKB / Swiss-Prot - предоставить всю известную релевантную информацию о конкретном белке. Аннотации регулярно пересматриваются, чтобы не отставать от текущих научных открытий. Ручное аннотирование записи включает подробный анализ белковой последовательности и научной литературы. [14]

Последовательности одного и того же гена и одного вида объединяются в одну запись базы данных. Идентифицируются различия между последовательностями и документируется их причина (например, альтернативный сплайсинг , естественная вариация , неправильные сайты инициации , неправильные границы экзонов , сдвиги рамки , неидентифицированные конфликты). В аннотации записей UniProtKB / Swiss-Prot используется ряд инструментов анализа последовательностей. Компьютерные прогнозы оцениваются вручную, и соответствующие результаты выбираются для включения в запись. Эти прогнозы включают посттрансляционные модификации, трансмембранные домены и топологию ,сигнальные пептиды , идентификация доменов и классификация семейств белков . [14] [15]

Соответствующие публикации идентифицируются с помощью поиска в базах данных, таких как PubMed . Читается полный текст каждой статьи, извлекается информация и добавляется к записи. Аннотации из научной литературы включают, но не ограничиваются: [10] [14] [15]

  • Названия белков и генов
  • Функция
  • Информация о ферментах, такая как каталитическая активность , кофакторы и каталитические остатки
  • Субклеточное расположение
  • Белково-белковые взаимодействия
  • Образец выражения
  • Расположение и роли важных доменов и сайтов
  • Сайты связывания ионов , субстратов и кофакторов
  • Формы вариантов белка, полученные в результате естественной генетической изменчивости, редактирования РНК , альтернативного сплайсинга, протеолитического процессинга и посттрансляционной модификации

Аннотированные записи проходят проверку качества перед включением в UniProtKB / Swiss-Prot. Когда становятся доступны новые данные, записи обновляются.

UniProtKB / TrEMBL [ править ]

UniProtKB / TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые дополнены автоматическими аннотациями. Он был введен в ответ на увеличение потока данных в результате геномных проектов, поскольку трудоемкий и трудоемкий процесс ручного аннотирования UniProtKB / Swiss-Prot не мог быть расширен для включения всех доступных белковых последовательностей. [10] Трансляции аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank / GenBank / DDBJ автоматически обрабатываются и вводятся в UniProtKB / TrEMBL. UniProtKB / TrEMBL также содержит последовательности из PDB и из предсказания генов, включая Ensembl , RefSeq и CCDS . [16]

UniParc [ править ]

UniProt Archive (UniParc) - это всеобъемлющая и неизбыточная база данных, которая содержит все последовательности белков из основных общедоступных баз данных последовательностей белков. [17]Белки могут существовать в нескольких разных исходных базах данных и в нескольких копиях в одной и той же базе данных. Чтобы избежать избыточности, UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, принадлежат они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), позволяющий идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только белковые последовательности без аннотации. Перекрестные ссылки базы данных в записях UniParc позволяют получить дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.

Исходные базы данных [ править ]

В настоящее время UniParc содержит последовательности белков из следующих общедоступных баз данных:

  • INSDC EMBL -Bank / DDBJ / GenBank базы данных нуклеотидных последовательностей
  • Ансамбль
  • Европейское патентное ведомство (ЕПВ)
  • FlyBase: основной репозиторий генетических и молекулярных данных о насекомых семейства Drosophilidae (FlyBase)
  • База данных H-Invitational (H-Inv)
  • Международный белковый индекс (IPI)
  • Патентное ведомство Японии (JPO)
  • Информационный ресурс о белках (PIR-PSD)
  • Банк данных белков (PDB)
  • Фонд исследования белков (PRF) [18]
  • RefSeq
  • База данных генома сахаромицетов (SGD)
  • Информационный ресурс по арабидопсису (ТАИР)
  • ТРОМ [19]
  • Патентное ведомство США (USPTO)
  • Изоформы белков UniProtKB / Swiss-Prot, UniProtKB / Swiss-Prot, UniProtKB / TrEMBL
  • База данных аннотаций позвоночных и геномов (VEGA)
  • WormBase

UniRef [ править ]

Справочные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов последовательностей белков из UniProtKB и выбранных записей UniParc. [20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в единую запись UniRef. Отображаются последовательность репрезентативного белка, регистрационные номера всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 группируются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [20] [21]Каждый кластер состоит из последовательностей, которые имеют, по крайней мере, 90% или 50% идентичности последовательности соответственно самой длинной последовательности. Кластеризация последовательностей значительно уменьшает размер базы данных, обеспечивая более быстрый поиск последовательностей.

UniRef доступен на FTP-сайте UniProt .

Финансирование [ править ]

UniProt финансируется за счет грантов Национального института исследования генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , Федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [11]

Ссылки [ править ]

  1. ^ UniProt, Консорциум. (Январь 2015 г.). «UniProt: центр информации о белках» . Исследования нуклеиновых кислот . 43 (выпуск базы данных): D204–12. DOI : 10.1093 / NAR / gku989 . PMC  4384041 . PMID  25348405 .
  2. ^ Dayhoff, Маргарет О. (1965). Атлас последовательности и структуры белков . Сильвер-Спринг, Мэриленд: Национальный фонд биомедицинских исследований.
  3. ^ "Выпуск 2002: Глобальная база данных по белкам фондов NHGRI" . Национальный институт исследования генома человека (NHGRI) . Проверено 14 апреля 2018 года .
  4. ^ О'Донован, C .; Мартин, MJ; Gattiker, A .; Gasteiger, E .; Bairoch, A .; Апвейлер Р. (2002). «Ресурс высококачественных знаний о белках: SWISS-PROT и TrEMBL» . Брифинги по биоинформатике . 3 (3): 275–284. DOI : 10.1093 / нагрудник / 3.3.275 . PMID 12230036 . 
  5. ^ Wu, CH; Ага, LS; Huang, H .; Армински, Л .; Castro-Alvear, J .; Chen, Y .; Hu, Z .; Kourtesis, P .; Ледли, РС; Suzek, BE; Винаяка, CR; Zhang, J .; Баркер, WC (2003). «Ресурс информации о белках» . Исследования нуклеиновых кислот . 31 (1): 345–347. DOI : 10.1093 / NAR / gkg040 . PMC 165487 . PMID 12520019 .  
  6. ^ Boeckmann, B .; Bairoch, A .; Apweiler, R .; Блаттер, MC; Estreicher, A .; Gasteiger, E .; Мартин, MJ; Michoud, K .; О'Донован, К .; Phan, I .; Pilbout, S .; Шнайдер, М. (2003). «База знаний о белках SWISS-PROT и дополнение к ней TrEMBL в 2003 году» . Исследования нуклеиновых кислот . 31 (1): 365–370. DOI : 10.1093 / NAR / gkg095 . PMC 165542 . PMID 12520024 .  
  7. ^ Bairoch, A .; Апвейлер Р. (1996). «Банк данных о последовательности белков SWISS-PROT и его новая добавка TREMBL» . Исследования нуклеиновых кислот . 24 (1): 21–25. DOI : 10.1093 / NAR / 24.1.21 . PMC 145613 . PMID 8594581 .  
  8. ^ Bairoch, A. (2000). "Информативность в биоинформатике, невзгоды швейцарского биоинформатика в захватывающие времена!" . Биоинформатика . 16 (1): 48–64. DOI : 10.1093 / биоинформатики / 16.1.48 . PMID 10812477 . 
  9. ^ Северин Алтайрак, " Naissance d'une banque de données: Интервью профессора Амоса Байроха ". Protéines à la Une , август 2006 г. ISSN 1660-9824 . 
  10. ^ a b c Apweiler, R .; Bairoch, A .; Ву, CH (2004). «Базы данных последовательностей белков». Текущее мнение в химической биологии . 8 (1): 76–80. DOI : 10.1016 / j.cbpa.2003.12.004 . PMID 15036160 . 
  11. ^ a b Uniprot, C. (2009). «Универсальный белковый ресурс (UniProt) в 2010 году» . Исследования нуклеиновых кислот . 38 (выпуск базы данных): D142 – D148. DOI : 10.1093 / NAR / gkp846 . PMC 2808944 . PMID 19843607 .  
  12. ^ «Статистика UniProtKB / Swiss-Prot Release 2018_03» . web.expasy.org . Проверено 14 апреля 2018 года .
  13. ^ EMBL-EBI. «Статистика текущего выпуска <Uniprot <EMBL-EBI» . www.ebi.ac.uk . Проверено 14 апреля 2018 года .
  14. ^ a b c "Как вручную аннотировать запись UniProtKB?" . www.uniprot.org . Проверено 14 апреля 2018 года .
  15. ^ a b Apweiler, R .; Bairoch, A .; Wu, CH; Баркер, WC; Boeckmann, B .; Ferro, S .; Gasteiger, E .; Huang, H .; Lopez, R .; Magrane, M .; Мартин, MJ; Натале, Д.А.; o'Donovan, C .; Редащи, Н .; Да, LS (2004). «UniProt: Универсальная база знаний о протеине» . Исследования нуклеиновых кислот . 32 (90001): 115D – 1119. DOI : 10.1093 / NAR / gkh131 . PMC 308865 . PMID 14681372 .  
  16. ^ "Откуда берутся белковые последовательности UniProtKB?" . www.uniprot.org . Проверено 14 апреля 2018 года .
  17. ^ Leinonen, R .; Diez, FG; Binns, D .; Fleischmann, W .; Lopez, R .; Апвейлер, Р. (2004). «Архив UniProt» . Биоинформатика . 20 (17): 3236–3237. DOI : 10.1093 / биоинформатики / bth191 . PMID 15044231 . 
  18. ^ http://www.prf.or.jp/index-e.html
  19. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome
  20. ^ a b Suzek, BE; Huang, H .; McGarvey, P .; Mazumder, R .; Ву, CH (2007). «UniRef: Комплексные эталонные кластеры UniProt без резервирования» . Биоинформатика . 23 (10): 1282–1288. DOI : 10.1093 / биоинформатики / btm098 . PMID 17379688 . 
  21. ^ Li, W .; Jaroszewski, L .; Годзик, А. (2001). «Кластеризация высокогомологичных последовательностей для уменьшения размера больших белковых баз данных» . Биоинформатика . 17 (3): 282–283. DOI : 10.1093 / биоинформатики / 17.3.282 . PMID 11294794 . 

Внешние ссылки [ править ]

  • UniProt