Из Википедии, бесплатной энциклопедии
  (Перенаправлено из суперсемейства (белки) )
Перейти к навигации Перейти к поиску

SUPERFAMILY - это база данных и платформа поиска структурных и функциональных аннотаций для всех белков и геномов. [1] [2] [3] [4] [5] [6] [7] Он классифицирует аминокислотные последовательности в известные структурные домены , особенно в суперсемейства SCOP . [8] [9] Домены - это функциональные, структурные и эволюционные единицы, которые образуют белки. Домены общего предка сгруппированы в суперсемейства. Домены и суперсемейства доменов определены и описаны в SCOP. [8] [10] Надсемействапредставляют собой группы белков, которые имеют структурные доказательства в пользу общего эволюционного предка, но могут не иметь поддающейся обнаружению гомологии последовательностей . [11]

Аннотации [ править ]

Аннотация SUPERFAMILY основана на наборе скрытых марковских моделей (HMM), которые представляют структурные белковые домены на уровне суперсемейства SCOP . [12] [13] Суперсемейство группирует вместе домены, которые имеют эволюционные отношения. Аннотации производятся путем сканирования белковых последовательностей полностью секвенированных геномов по скрытым марковским моделям.

Для каждого белка вы можете:

  • Отправьте последовательности для классификации SCOP
  • Просмотр организации домена, выравнивания последовательностей и подробностей белковой последовательности

Для каждого генома вы можете:

  • Изучите назначения надсемейства, филогенетические деревья , списки доменных организаций и сети.
  • Проверьте наличие чрезмерно и недостаточно представленных суперсемейств в геноме

Для каждого суперсемейства вы можете:

  • Проверьте классификацию SCOP, функциональную аннотацию, аннотацию генной онтологии , [6] [14] аннотации InterPro и назначения генома.
  • Изучить таксономическое распределение суперсемейства по древу жизни

Все аннотации, модели и дамп базы данных доступны для бесплатного скачивания всем желающим.

Особенности [ править ]

Последовательный поиск

Отправьте последовательность белка или ДНК для классификации SCOP на суперсемейство и на уровне семейства с помощью SUPERFAMILY HMM. Последовательности могут быть отправлены либо путем необработанного ввода, либо путем загрузки файла, но все они должны быть в формате FASTA . Последовательности могут быть аминокислотами, нуклеотидной последовательностью с фиксированной рамкой или всеми рамками представленной нуклеотидной последовательности. Одновременно можно запускать до 1000 последовательностей.

Поиск по ключевым словам

Выполните поиск в базе данных, используя название суперсемейства, семейства или вида плюс последовательность, идентификаторы SCOP, PDB или HMM. Успешный поиск дает класс, складки, суперсемейства, семейства и отдельные белки, соответствующие запросу.

Назначение домена

В базе данных есть назначения доменов, выравнивания и архитектуры для полных последовательностей эукариотических и прокариотических организмов, а также коллекции последовательностей.

Инструменты сравнительной геномики

Просмотрите необычные (чрезмерно и недостаточно представленные) суперсемейства и семейства, списки и графики смежных пар доменов, уникальные пары доменов, комбинации доменов, сети совместного появления архитектуры доменов и распределение доменов по таксономическим царствам для каждого организма.

Статистика генома

Для каждого генома: количество последовательностей, количество последовательностей с назначением, процент последовательностей с назначением, процент общего покрытия последовательностей, количество назначенных доменов, количество назначенных суперсемейств, количество назначенных семейств, средний размер суперсемейства, процент, полученный в результате дупликации, средний длина последовательности, средняя совпадающая длина, количество пар доменов и количество уникальных доменных архитектур.

Генная онтология

Доменно-ориентированная генная онтология (GO) автоматически аннотируется.

Из-за растущего разрыва между секвенированными белками и известными функциями белков становится все более важным разработать более автоматизированный метод функционального аннотирования белков, особенно для белков с известными доменами. SUPERFAMILY использует аннотации GO на уровне белков, взятые из проекта Genome Ontology Annotation (GOA), который предлагает высококачественные аннотации GO, напрямую связанные с белками в UniprotKB для широкого спектра видов. [15] SUPERFAMILY сгенерировал GO-аннотации для эволюционно закрытых доменов (на уровне семейства SCOP) и удаленных доменов (на уровне суперсемейства SCOP).

Онтология фенотипа

Доменно-ориентированная онтология фенотипа / анатомии, включая онтологию заболевания, фенотип человека, фенотип мыши, фенотип червя, фенотип дрожжей, фенотип мух, анатомию мух, анатомию рыбок данио, анатомию ксенопусов и растение арабидопсис.

Аннотация надсемейства

InterPro представляет рефераты для более чем 1000 суперсемейств, а аннотации Gene Ontology (GO) - для более чем 700 суперсемейств. Эта функция позволяет напрямую аннотировать ключевые особенности, функции и структуры суперсемейства.

Функциональная аннотация

Функциональная аннотация суперсемейства SCOP 1.73.

База данных SUPERFAMILY использует схему из 50 подробных категорий функций, которые сопоставляются с 7 общими категориями функций, аналогично схеме, используемой в базе данных COG. [16] Общая функция, назначенная суперсемейству, использовалась для отражения основной функции этого суперсемейства. Общие категории функций:

  1. Информация: хранение, поддержание генетического кода; Репликация и восстановление ДНК; общая транскрипция и перевод .
  2. Регулирование: регулирование экспрессии генов и активности белков; обработка информации в ответ на воздействие окружающей среды; сигнальная трансдукция ; общая регуляторная или рецепторная активность.
  3. Обмен веществ : анаболические и катаболические процессы; поддержание клеток и гомеостаз ; вторичный обмен веществ.
  4. Внутриклеточные процессы: подвижность и деление клеток; гибель клеток ; внутриклеточный транспорт ; секреция .
  5. Внеклеточные процессы: меж- и внеклеточные процессы, такие как клеточная адгезия; Органический процесс, такой как свертывание крови или иммунная система.
  6. Общие: Общие и множественные функции; взаимодействия с белками , липидами , небольшими молекулами и ионами .
  7. Другое / неизвестно: неизвестная функция, вирусные белки или токсины .

Каждое суперсемейство доменов в SCOP-классах от a до g было вручную аннотировано с использованием этой схемы [17] [18] [19], а использованная информация была предоставлена SCOP , [10] InterPro , [20] [21] Pfam , [22] Swiss Prot , [23] и различные литературные источники.

Филогенетические деревья

Создавайте собственные филогенетические деревья , выбрав 3 или более доступных генома на сайте SUPERFAMILY. Деревья генерируются с использованием методов эвристической экономии и основаны на данных об архитектуре белковых доменов для всех геномов в SUPERFAMILY. Комбинации геномов или определенные клады могут отображаться в виде отдельных деревьев.

Подобные доменные архитектуры

Эта функция позволяет пользователю найти 10 доменных архитектур, наиболее похожих на интересующую доменную архитектуру.

Скрытые марковские модели

Произведите назначения области SCOP для последовательности, используя SUPERFAMILY скрытые модели Маркова .

Сравнение профилей

Найдите совпадения с удаленными доменами, когда поиск HMM не может найти значимого совпадения. Сравнение профилей (PRC) [24] для выравнивания и оценки используются два профиля HMM.

Веб-сервисы

Распределенный сервер аннотаций и ссылка на SUPERFAMILY.

Загрузки

Последовательности, задания, модели, база данных MySQL и скрипты - обновляются еженедельно.

Использование в исследованиях [ править ]

База данных SUPERFAMILY имеет множество исследовательских приложений и использовалась многими исследовательскими группами для различных исследований. Он может служить либо базой данных для белков, которые пользователь желает исследовать с помощью других методов, либо назначать функцию и структуру новому или не охарактеризованному белку. Одно исследование показало, что SUPERFAMILY очень хорошо умеет правильно назначать соответствующую функцию и структуру большому количеству областей неизвестной функции, сравнивая их со скрытыми марковскими моделями баз данных. [25] В другом исследовании SUPERFAMILY использовался для создания набора данных из 1733 складчатых доменов суперсемейства (FSF) при сравнении протеомов и функциономов для определения происхождения клеточной диверсификации. [26]

Ссылки [ править ]

  1. ^ Уилсон, D; Pethica, R; Чжоу, Y; Talbot, C; Vogel, C; Мадера, М; Chothia, C; Гоф, Дж (2009). «SUPERFAMILY - сложная сравнительная геномика, интеллектуальный анализ данных, визуализация и филогения» . Исследования нуклеиновых кислот . 37 (выпуск базы данных): D380–6. DOI : 10.1093 / NAR / gkn762 . PMC 2686452 . PMID 19036790 .  
  2. ^ Мадера, Мартин; Фогель, Кристина; Куммерфельд, Сара К .; Чотия, Сайрус; Гоф, Джулиан (2004-01-01). «База данных SUPERFAMILY в 2004 году: дополнения и улучшения» . Исследования нуклеиновых кислот . 32 (приложение 1): D235 – D239. DOI : 10.1093 / NAR / gkh117 . ISSN 0305-1048 . PMC 308851 . PMID 14681402 .   
  3. ^ Wilson, D .; Madera, M .; Vogel, C .; Chothia, C .; Гоф, Дж. (2007). «База данных SUPERFAMILY в 2007 году: семьи и функции» . Исследования нуклеиновых кислот . 35 (выпуск базы данных): D308 – D313. DOI : 10.1093 / NAR / gkl910 . PMC 1669749 . PMID 17098927 .  
  4. Перейти ↑ Gough, J. (2002). «База данных SUPERFAMILY по структурной геномике» . Acta Crystallographica Раздел D . 58 (Pt 11): 1897–1900. DOI : 10.1107 / s0907444902015160 . PMID 12393919 . 
  5. ^ Gough, J .; Чотиа, К. (2002). «SUPERFAMILY: HMMs, представляющие все белки известной структуры. Поиск последовательностей SCOP, выравнивание и назначение генома» . Исследования нуклеиновых кислот . 30 (1): 268–272. DOI : 10.1093 / NAR / 30.1.268 . PMC 99153 . PMID 11752312 .  
  6. ^ а б Де Лима Мораис, DA; Fang, H .; Rackham, OJL; Wilson, D .; Pethica, R .; Chothia, C .; Гоф, Дж. (2010). «SUPERFAMILY 1.75, включая доменно-ориентированный метод онтологии генов» . Исследования нуклеиновых кислот . 39 (выпуск базы данных): D427 – D434. DOI : 10.1093 / NAR / gkq1130 . PMC 3013712 . PMID 21062816 .  
  7. ^ Оутс, Мэн; Stahlhacke, J; Вавулис, Д.В. Смитерс, Б. Rackham, OJ; Сардар, AJ; Zaucha, J; Терлби, Н. Клык, H; Гоф, Дж (2015). «База данных SUPERFAMILY 1.75 в 2014 году: удвоение данных» . Исследования нуклеиновых кислот . 43 (Выпуск базы данных): D227–33. DOI : 10.1093 / NAR / gku1041 . PMC 4383889 . PMID 25414345 .  
  8. ^ а б Хаббард, TJ ; Эйли, Б .; Brenner, SE ; Мурзин, АГ; Чотиа, К. (1999). «SCOP: структурная классификация базы данных белков» . Исследования нуклеиновых кислот . 27 (1): 254–256. DOI : 10.1093 / NAR / 27.1.254 . PMC 148149 . PMID 9847194 .  
  9. ^ Lo Conte, L .; Эйли, Б .; Хаббард, Т.Дж.; Brenner, SE; Мурзин, АГ; Чотиа, К. (2000). «SCOP: структурная классификация базы данных белков» . Исследования нуклеиновых кислот . 28 (1): 257–259. DOI : 10.1093 / NAR / 28.1.257 . PMC 102479 . PMID 10592240 .  
  10. ^ a b Андреева, Антонина; Ховорт, Дэйв; Бреннер, Стивен Э .; Хаббард, Тим Дж. П.; Чотия, Сайрус; Мурзин, Алексей Г. (2004-01-01). «База данных SCOP в 2004 году: уточнения объединяют данные о структуре и семействе последовательностей» . Исследования нуклеиновых кислот . 32 (выпуск базы данных): D226 – D229. DOI : 10.1093 / NAR / gkh039 . ISSN 0305-1048 . PMC 308773 . PMID 14681400 .   
  11. ^ Дэйхофф, Миссури; Маклафлин, П.Дж.; Баркер, WC; Хант, LT (1975-04-01). «Эволюция последовательностей в суперсемействах белков». Naturwissenschaften . 62 (4): 154–161. Bibcode : 1975NW ..... 62..154D . DOI : 10.1007 / BF00608697 . ISSN 0028-1042 . 
  12. ^ Gough, J .; Karplus, K .; Hughey, R .; Чотиа, К. (2001). «Присвоение гомологии последовательностям генома с использованием библиотеки скрытых марковских моделей, которые представляют все белки известной структуры1». Журнал молекулярной биологии . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . DOI : 10.1006 / jmbi.2001.5080 . PMID 11697912 .  
  13. ^ Karplus, K .; Barrett, C .; Хьюи, Р. (1998-01-01). «Скрытые марковские модели для обнаружения удаленных гомологий белков» . Биоинформатика . 14 (10): 846–856. DOI : 10.1093 / биоинформатики / 14.10.846 . ISSN 1367-4803 . PMID 9927713 .  
  14. ^ Ботштейн, Д .; Cherry, JM; Эшбернер, М .; Болл, Калифорния; Blake, JA; Батлер, H .; Дэвис, AP; Долинский, К .; Дуайт, СС; Eppig, JT; Харрис, Массачусетс; Хилл, Д.П .; Issel-Tarver, L .; Касарскис, А .; Льюис, С .; Matese, JC; Ричардсон, Дж. Э .; Ringwald, M .; Рубин, GM ; Шерлок, Г. (2000). «Генная онтология: инструмент для объединения биологии. Консорциум генных онтологий» . Генетика природы . 25 (1): 25–29. DOI : 10.1038 / 75556 . PMC 3037419 . PMID 10802651 .  
  15. ^ Баррелл, Дэниел; Диммер, Эмили; Хантли, Рэйчел П .; Биннс, Дэвид; О'Донован, Клэр; Апвайлер, Рольф (01.01.2009). «База данных GOA в 2009 году - интегрированный ресурс аннотаций генных онтологий» . Исследования нуклеиновых кислот . 37 (добавление 1): D396 – D403. DOI : 10.1093 / NAR / gkn803 . ISSN 0305-1048 . PMC 2686469 . PMID 18957448 .   
  16. ^ Татусов, Роман Л; Федорова Натали Д; Джексон, Джон Д; Джейкобс, Авива Р.; Кирютин, Борис; Кунин, Евгений V; Крылов Дмитрий М; Мазумдер, Раджа; Мехедов, Сергей Л (11.09.2003). «База данных COG: обновленная версия включает эукариоты» . BMC Bioinformatics . 4 : 41. DOI : 10,1186 / 1471-2105-4-41 . ISSN 1471-2105 . PMC 222959 . PMID 12969510 .   
  17. ^ Фогель, Кристина; Берзуини, Карло; Баштон, Мэтью; Гоф, Джулиан; Тайхманн, Сара А. (20 февраля 2004 г.). «Супра-домены: эволюционные единицы больше, чем отдельные белковые домены». Журнал молекулярной биологии . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . DOI : 10.1016 / j.jmb.2003.12.026 . ISSN 0022-2836 . PMID 15095989 .   
  18. ^ Фогель, Кристина; Тейхманн, Сара А .; Перейра-Леаль, Хосе (11 февраля 2005 г.). «Взаимосвязь между дупликацией домена и рекомбинацией». Журнал молекулярной биологии . 346 (1): 355–365. DOI : 10.1016 / j.jmb.2004.11.050 . ISSN 0022-2836 . PMID 15663950 .  
  19. ^ Фогель, Кристина; Чотия, Сайрус (01.05.2006). «Расширение семейства белков и биологическая сложность» . Вычислительная биология PLoS . 2 (5): e48. Bibcode : 2006PLSCB ... 2 ... 48V . DOI : 10.1371 / journal.pcbi.0020048 . ISSN 1553-734X . PMC 1464810 . PMID 16733546 .   
  20. ^ Малдер, Никола Дж .; Апвейлер, Рольф; Аттвуд, Тереза ​​К .; Байрох, Амос; Баррелл, Дэниел; Бейтман, Алекс; Биннс, Дэвид; Бисвас, Маргарет; Брэдли, Пол (01.01.2003). «База данных InterPro 2003 расширяет охват и предоставляет новые возможности» . Исследования нуклеиновых кислот . 31 (1): 315–318. DOI : 10.1093 / NAR / gkg046 . ISSN 0305-1048 . PMC 165493 . PMID 12520011 .   
  21. ^ Малдер, Никола Дж .; Апвейлер, Рольф; Аттвуд, Тереза ​​К .; Байрох, Амос; Бейтман, Алекс; Биннс, Дэвид; Брэдли, Пол; Борк, Пер; Бучер, Филипп (01.01.2005). «ИнтерПро, прогресс и статус в 2005 году» . Исследования нуклеиновых кислот . 33 (Проблема с базой данных): D201 – D205. DOI : 10.1093 / NAR / gki106 . ISSN 0305-1048 . PMC 540060 . PMID 15608177 .   
  22. ^ Финн, Роберт Д .; Мистри, Джайна; Шустер-Бёклер, Бенджамин; Гриффитс-Джонс, Сэм; Холлих, Фолькер; Лассманн, Тимо; Моксон, Саймон; Маршалл, Мхайри; Ханна, Аджай (01.01.2006). «Pfam: кланы, веб-инструменты и сервисы» . Исследования нуклеиновых кислот . 34 (выпуск базы данных): D247 – D251. DOI : 10.1093 / NAR / gkj149 . ISSN 0305-1048 . PMC 1347511 . PMID 16381856 .   
  23. ^ Бекманн, Бриджит; Блаттер, Мари-Клод; Фамильетти, Ливия; Хинц, Урсула; Лейн, Лидия; Рохерт, Бернд; Байрох, Амос (1 ноября 2005 г.). «Разнообразие белков и функциональное разнообразие: аннотация Swiss-Prot в биологическом контексте». Comptes Rendus Biologies . 328 (10–11): 882–899. DOI : 10.1016 / j.crvi.2005.06.001 . ISSN 1631-0691 . PMID 16286078 .  
  24. ^ Мадера, Мартин (2008-11-15). «Profile Comparer: программа для скоринга и выравнивания профилей скрытых марковских моделей» . Биоинформатика . 24 (22): 2630–2631. DOI : 10.1093 / биоинформатики / btn504 . ISSN 1367-4803 . PMC 2579712 . PMID 18845584 .   
  25. ^ Мудгал, Рича; Сандхья, Шанкаран; Чандра, Нагасума; Шринивасан, Нараянасвами (31 июля 2015 г.). «De-DUFing DUFs: Расшифровка отдаленных эволюционных отношений Доменов неизвестной функции с использованием чувствительных методов обнаружения гомологии» . Биология Директ . 10 (1): 38. DOI : 10,1186 / s13062-015-0069-2 . PMC 4520260 . PMID 26228684 .  
  26. ^ Насир, Аршан; Каэтано-Аноллес, Густаво (2013). «Сравнительный анализ протеомов и функциономов дает представление о происхождении клеточной диверсификации» . Археи . PMC 3892558 . 

Внешние ссылки [ править ]

  • База данных SUPERFAMILY
  • SCOP: структурная классификация белков