Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

База данных CATH Protein Structure Classification - это бесплатный общедоступный онлайн-ресурс, который предоставляет информацию об эволюционных отношениях белковых доменов . Она была создана в середине 1990 - х годов профессор Кристин Orengo и коллег в том числе Джанет Торнтон и Дэвид Джонс , [2] и продолжает разрабатываться группой Оренго в Университетском колледже Лондона . CATH имеет много общих черт с ресурсом SCOP , однако есть также много областей, в которых подробная классификация сильно отличается. [3] [4] [5] [6]

Иерархическая организация [ править ]

Определенные экспериментально трехмерные структуры белков получают из банка данных по белкам и разделяют на их последовательные полипептидные цепи , где это применимо. Белковые домены идентифицируются в этих цепочках с использованием сочетания автоматических методов и ручного лечения.

Затем домены классифицируются в рамках структурной иерархии CATH: на уровне класса (C) домены назначаются в соответствии с их содержанием вторичной структуры , то есть все альфа , все бета , смесь альфа и бета или небольшая вторичная структура; на уровне архитектуры (A) для присвоения используется информация о расположении вторичной конструкции в трехмерном пространстве; на уровне топологии / складки (T) используется информация о том, как элементы вторичной структуры соединяются и располагаются; отнесение выполняется к уровню гомологичного суперсемейства (H), если есть веские доказательства того, что домены связаны эволюцией [2], то есть они гомологичны.

Дополнительные данные о последовательностях для доменов без экспериментально определенных структур предоставлены сестринским ресурсом CATH, Gene3D, которые используются для заполнения гомологичных суперсемейств. Последовательности белков из UniProtKB и Ensembl сканируются против CATH HMM для предсказания границ последовательностей домена и определения гомологичных надсемейств.

Релизы [ править ]

Команда CATH стремится предоставлять официальные выпуски классификации CATH каждые 12 месяцев. Этот процесс выпуска важен, потому что он позволяет обеспечить внутреннюю проверку, дополнительные аннотации и анализ. Однако это может означать, что между появлением новых структур в PDB и последним официальным выпуском CATH есть временная задержка,

Для решения этой проблемы: CATH-B предоставляет ограниченный объем информации для самых последних доменных аннотаций (например, границы доменов и классификации суперсемей).

Последний выпуск CATH-Gene3D (v4.3) был выпущен в декабре 2020 года и состоит из:

  • 500 238 структурных записей домена белка [1]
  • 151 млн записей неструктурных белковых доменов [1]
  • 5 481 гомологичный элемент надсемейства [1]
  • 212 872 функциональных семейных записи [1]

Программное обеспечение с открытым исходным кодом [ править ]

CATH - это программный проект с открытым исходным кодом , в котором разработчики разрабатывают и поддерживают ряд инструментов с открытым исходным кодом. [7] CATH поддерживает список задач на GitHub, чтобы внешние пользователи могли создавать и отслеживать проблемы, связанные с классификацией структуры белков CATH.

Ссылки [ править ]

  1. ^ a b c d e Доусон, Нидерланды; Льюис, TE; Das, S; Lees, JG; Ли, Д; Ashford, P; Оренго, Калифорния; Силлитоэ, I (28 ноября 2016 г.). «CATH: расширенный ресурс для прогнозирования функции белка через структуру и последовательность» . Исследования нуклеиновых кислот . 45 (D1): D289 – D295. DOI : 10.1093 / NAR / gkw1098 . PMC  5210570 . PMID  27899584 .
  2. ^ a b Оренго, Калифорния; Michie, AD; Джонс, S; Джонс, ДТ ; Суинделлс, МБ; Торнтон, Дж. М. (1997). «CATH - иерархическая классификация доменных структур белков». Структура . 5 (8): 1093–1109. DOI : 10.1016 / S0969-2126 (97) 00260-8 . ISSN 0969-2126 . PMID 9309224 .  
  3. ^ "CATH: База данных классификации структуры белков в UCL" . Cathdb.info . Проверено 9 марта 2017 .
  4. ^ "CATH" . Cathdb.info . Проверено 9 марта 2017 .
  5. ^ "База данных CATH (@CATHDatabase)" . Twitter . Проверено 9 марта 2017 .
  6. ^ Pearl, FMG (2003). «База данных CATH: ресурс расширенного семейства белков для структурной и функциональной геномики» . Исследования нуклеиновых кислот . 31 (1): 452–455. DOI : 10.1093 / NAR / gkg062 . ISSN 1362-4962 . PMC 165509 . PMID 12520050 .   
  7. ^ «Инструменты» . cathdb.info . Проверено 18 декабря +2016 .