Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В биоинформатике система классификации PANTHER ( анализ белков через эволюционные отношения ) представляет собой большую тщательно подобранную биологическую базу данных семейств генов / белков и их функционально связанных подсемейств, которые можно использовать для классификации и определения функции генных продуктов. [1] PANTHER является частью проекта Gene Ontology Reference Genome Project [2], разработанного для классификации белков и их генов для высокопроизводительного анализа.

Проект состоит из алгоритмов ручного курирования и биоинформатики. [3] Белки классифицируются по семейству (и подсемейству), молекулярной функции, биологическому процессу и пути. Это одна из баз данных, входящих в базу данных InterPro Европейского института биоинформатики . [4] - Применение PANTHER. Наиболее важным применением PANTHER является точный вывод о функциях не охарактеризованных генов любого организма на основе их эволюционных взаимоотношений с генами с известными функциями. [3] Объединив функцию гена, онтология, пути и инструменты статистического анализа, PANTHER позволяет биологам анализировать крупномасштабные данные по всему геному, полученные с помощью современных передовых технологий, включая эксперименты по секвенированию, протеомике или экспрессии генов . [5] Вскоре, используя данные и инструменты PANTHER, пользователи смогут: [6]

  • Получите информацию о конкретном интересующем гене.
  • Откройте для себя семейства и подсемейства белков, пути, биологические процессы, молекулярные функции и клеточные компоненты.
  • Создавайте списки генов, относящихся к определенному семейству / подсемейству белков, молекулярной функции, биологическому процессу или пути.
  • Анализируйте списки генов, белков или транскриптов.

История PANTHER [ править ]

  • 1998: Проект запущен в Molecular Application Group.
  • 1999: Приобретена Celera Genomics.
  • 2000: PANTHER 1 выпущен в Celera Discovery Systems (CDS).
  • 2001: Выпущена PANTHER 2, которая используется в аннотации к первому опубликованному геному человека Celera.
  • 2002: Выпущена PANTHER 3. Аннотации PANTHER интегрированы в FlyBase . Переехал в ABI.
  • 2003: PANTHER 4 выпущен вместе с общедоступной версией PANTHER Classification System.
  • 2005: PANTHER 5 выпущен с PANTHER Pathway и инструментом анализа. Наладить сотрудничество с InterPro.
  • 2006: Выпущена PANTHER 6. Перейти в НИИ.
  • 2010: Выпущена PANTHER 7.
  • 2011: Переехать в USC.
  • 2012: Выпущена PANTHER 8.
  • 2014: Выпущена PANTHER 9. [6]
  • 2015: Выпущена PANTHER 10.
  • 2016: Выпущена PANTHER 11. [7]

Филогенетическое дерево [ править ]

У пантеры есть пифогенетическое дерево для каждого из семейств белков. Аннотации дерева выполняются по следующим критериям:

  • Каждый узел аннотирован атрибутами гена, включая «принадлежность к подсемейству», «класс белков», «функцию гена». Эти атрибуты передаются по наследству. [3] Названия белков Swiss-Prot обычно используются для обозначения подсемейств. [8] Поскольку PANTHER является частью проекта референсного генома GO, [2] [9] термины Gene Ontology [10] (GO) используются для обозначения функции генов. Термины онтологии PANTHER / X используются для класса белков.
  • Каждый внутренний узел отмечен эволюционными событиями, такими как « видообразование », « дупликация гена » и « горизонтальный перенос гена ». [3]

Для создания филогенетических деревьев PANTHER использует алгоритм GIGA. GIGA использует дерево видов для разработки конструкции деревьев. На каждой итерации он пытается согласовать дерево в форме событий видообразования и дупликации генов.

Процесс создания данных библиотеки PANTHER [ править ]

Процесс создания данных разделен на три этапа:

  1. Семейная кластеризация
  2. Пифологическое дерево
  3. Аннотация узлов дерева

Семейная кластеризация [ править ]

Набор последовательностей [ править ]

Деревья PANTHER отображают эволюцию семейства генов из широкого набора полностью секвенированных геномов. PANTHER имеет одну последовательность на ген, так что дерево может отображать событие, произошедшее в ходе эволюции, то есть дупликацию, видообразование. Набор геномов PANTHER отбирается по следующим критериям:

  • Набор должен включать основную экспериментальную модель организма , это поможет отобразить функциональную информацию менее изученного организма.
  • Набор должен включать широкий таксономический диапазон других геномов, желательно полностью секвенированных и аннотированных, это поможет связать экспериментальную модель организма.

Семейные кластеры [ править ]

Ниже приведены требования для того, чтобы быть семейным кластером в PANTHER:

  1. Семейство должно состоять как минимум из пяти членов, среди которых как минимум один ген должен происходить из эталонного генома GO.
  2. Чтобы поддержать филогенетический вывод, семейство должно содержать выравнивание последовательностей высокого качества .
  3. Оценка множественной выровненной последовательности выполняется путем оценки длины выровненной последовательности, по крайней мере, 30 сайтов, выровненных на 75% или более членов семейства.

Построение филогенетического древа [ править ]

Для каждого семейства несколько последовательностей выравниваются с использованием настройки MAFFT по умолчанию , любой столбец, который выровнен менее чем на 75% последовательности, удаляется. Эти данные затем используются в качестве входных данных для программы GIGA. Выходное дерево GIGA помечено. Каждый внутренний узел помечается как произошло ли событие дивергенции как видообразование или дупликация гена.

Аннотация узлов дерева [ править ]

Каждый узел в дереве PANTHER аннотируется наследуемым атрибутом. Наследственный атрибут может быть трех типов: принадлежность к подсемейству, функция гена и принадлежность к классу белков. Эти аннотации узлов относятся к первичной последовательности, которая использовалась для построения дерева. При применении этих аннотаций к первичной последовательности используется простой эволюционный принцип, то есть аннотация каждого узла распространяется его дочерним узлом. [3]

Компоненты PANTHER [ править ]

ПАНТЕРА / ЛИБ (библиотека ПАНТЕРА): Библиотека состоит из собрания книг. Каждая из этих книг представляет собой семейство белков. Существует скрытая марковская модель (HMM), множественное выравнивание последовательностей (MSA) и генеалогическое древо для каждого семейства белков в библиотеке. [1]

PANTHER / X (индекс PANTEHR): указатель содержит сокращенную онтологию, которая помогает в обобщении, навигации по молекулярным функциям и биологическим функциям. Хотя онтология PANTHER / X имеет иерархическую организацию, это направленный ациклический граф, и поэтому, когда это биологически оправдано, дочерние категории появляются под более чем одним родителем. PANTHER / X был отображен на GO и устроен по-другому, чтобы облегчить крупномасштабный анализ белков. [1]

Пути ПАНТЕРА [ править ]

PANTHER включает 176 путей с использованием инструмента CellDesigner. Пути PANTHER можно загрузить в следующих форматах файлов.

  • Язык разметки системной биологии ( SBML )
  • Графическая нотация системной биологии (SBGN - ML)
  • BioPAX [3]

Последние версии PANTHER, их статистика и обновления [ править ]

Версия 6.0 [ править ]

Версия 6 использует последовательности UniProt [11] в качестве обучающих последовательностей. Существует 19132 обучающих последовательностей UniProt, непосредственно связанных с компонентами пути. Эта версия имеет ~ 1500 реакций в 130 путях, и количество путей, связанных с подсемействами, было расширено. PANTHER стала членом Консорциума InterPro. Улучшена доступность данных PANTHER (HMM можно загрузить по FTP ). Версия 6.1 PANTHER / LIB содержит 221609 последовательностей UniProt от 53 организмов, сгруппированных в 5546 семейств и 24561 подсемейств. [12] (2006 г.)

Версия 7.0 [ править ]

В этой версии филогенетические деревья представляют собой события видообразования и дупликации генов. Возможна идентификация ортологов генов . Больше поддержки для альтернативных идентификаторов баз данных для генов, белков и зондов микрочипов . PANTHER версии 7 использует стандарт SBGN для описания биологических путей. Он включает 48 наборов геномов. Для определения новых семейств в эту версию в сотрудничестве с группой InterPro Европейского института биоинформатики [4] было добавлено около 1000 семейств неживотных геномов. Источники наборов генов включали базы данных модельных организмов, аннотацию генома Ensembl [13] и ген Entrez . [14]Начиная с этой версии, для каждого узла в дереве используется стабильный идентификатор. Этот стабильный идентификатор представляет собой девятизначное число с префиксом PTN (аббревиатура от PANTHER Tree Node). [3] [15] (2009 г.)

Версия 8.0 (2012 г.) [ править ]

В этой версии PANTHER используется эталонный протеом [16], поддерживаемый ресурсом UniProt, поэтому источником наборов генов является UniProt. Он включает 82 набора геномов (примерно вдвое больше по сравнению с версией 7) и 991985 генов, кодирующих белок, из которых 642319 генов (64,75%) были использованы для семейных кластеров. Веб-сайт PANTHER переработан, чтобы облегчить обычный пользовательский рабочий процесс. [3]

Версия 9.0 (2014 г.) [ править ]

Эта версия содержит 7180 семейств белков, разделенных на 52 768 функционально различных подсемейств белков. Версия 9.0 содержит геномы всех 85 организмов. [17] [6]

Версия 11.1 (2016) [ править ]

Эта версия содержит аннотированные 78442 подсемейства и 1 064 054 гена.

Веб-сайт PANTHER [ править ]

Домашняя страница веб-сайта PANTHER показывает несколько вкладок папок для основных рабочих процессов, в том числе: анализ списка генов, просмотр, поиск последовательностей, оценка cSNP и поиск по ключевым словам. Подробная информация о каждом из этих рабочих процессов представлена ​​ниже.

Анализ списка генов [ править ]

Эта вкладка выбрана по умолчанию, потому что это наиболее часто используемый вариант. Вы можете ввести действительные идентификаторы в поле или загрузить файл, затем выбрать тип списка, выбрать интересующий организм и выбрать тип анализа.

Практический пример: давайте попробуем этот рабочий процесс на примере небольшого списка генов, содержащего три гена AKT1, AKT2, AKT3. Сначала мы вводим эти названия генов в рамку и разделяем их запятой (или пробелом). Мы выбираем «Список идентификаторов» как тип списка, «Homo Sapiens» (человек) как организм и «Функциональная классификация, рассматриваемая в списке генов» как тип операции; затем нажмите "Отправить". Он дает вам информацию обо всех трех генах, а именно:

  1. Идентификаторы генов из Ensembl и идентификаторы белков из Uniprot: в этом примере вы должны видеть «ENSG00000142208» и «P31749».
  2. Сопоставленные идентификаторы: это просто имена генов, сопоставленных с вашим запросом (AKT1, AKT2 и AKT3).
  3. Названия генов, символы генов и ортологи: на ортологи можно щелкнуть мышью, и, щелкнув по ним, вы можете увидеть список других организмов и их идентификаторы, а также тип ортологов («LDO» для наименее расходящихся ортологов, «O» для другие, которые являются более расходящимися ортологами, и "P" для паралогов).
  4. Семья и подсемейство PANTHER: это даст вам название семейства и подсемейства для ваших генов. Есть несколько ссылок, например ссылка на семейное древо, на которое можно нажимать. Наконец, вы получите гены от разных видов, относящиеся к этому подсемейству. В этом примере у вас есть подсемейство PANTHER "PTHR24352: SF30" для AKT1.
  5. Молекулярная функция GO: это говорит вам, каковы функции вашего гена запроса; например, AKT1 обладает протеинкиназной активностью и может избирательно и нековалентно взаимодействовать с ионами кальция, кальмодулином и фосфолипидами.
  6. Биологический процесс GO: просмотрев эту колонку, вы поймете, в каких биологических процессах участвует ген; например, AKT1 играет роль в генерации гамет, апоптозе, клеточном цикле и т. д.
  7. Клеточный компонент GO: он сообщает вам, где в ячейке вы можете найти требуемый белок. В нашем примере информация недоступна, но если вы попробуете другие примеры (например, ген p53), вы увидите некоторые клеточные компоненты, такие как «ядро», «цитоплазма», «хромосомы» и т. Д.
  8. Класс белка PANTHER: дает вам имена и идентификаторы класса белка PANTHER для каждого из генов; например, AKT1 относится к классу белков PANTHER «нерецепторная серин / треониновая протеинкиназа» с идентификатором класса «PC00167». Вы также можете увидеть его родительскую и дочернюю родословную.
  9. Пути: будет показан список интерактивных имен путей, в которых существует ваш ген запроса; например, AKT1 участвует в нескольких путях, таких как «ответ гипоксии через HIF», «путь передачи сигналов апоптоза», «путь киназы PI3» и т. д.
  10. Виды: это название выбранного вами вида; в данном случае мы выбрали «Homo sapiens».

Обзор [ редактировать ]

Используя эту вкладку папки и выбрав интересующую вас онтологию, вы можете просматривать различные классификации. Также возможно выбрать более одной онтологии; в этом случае результаты будут соответствовать критериям из всех выбранных. Вы можете увидеть связь между терминами онтологии и семействами, подсемействами и обучающими последовательностями PANTHER.

Последовательный поиск [ править ]

Помещая последовательность белка в поле поиска последовательности, PANTHER будет искать в библиотеке HMM семейства и подсемейства и возвращать подсемейство, которое лучше всего соответствует последовательности. Если вы нажмете на название подсемейства, оно предоставит некоторые детали, например, гены, относящиеся к этому подсемейству, и возможность просмотра подсемейства в более крупном генеалогическом дереве. Скачав инструмент подсчета очков PANTHER со страницы загрузки, вы сможете оценивать многие последовательности с помощью PANTHER HMM.

Оценка cSNP [ править ]

Используя эту вкладку папки, вы можете выполнить анализ эволюции кодирования SNP . Вы должны ввести последовательность белка в первое поле и замены относительно этой последовательности белка во втором поле; эти замены следует вводить в стандартном формате аминокислотных замен, например L46P. PANTHER будет использовать выравнивание эволюционно связанных белков, вычислять эволюционную консервацию, специфичную для позиции замены (subPSEC), и оценивать вероятность того, что этот несинонимичный кодирующий SNP будет оказывать функциональное воздействие на белок. Этот инструмент использует данные из PANTHER версии 6.1 по техническим причинам. Одна из новых функций PANTHER заключается в том, что если вы хотите проанализировать множество SNP, вы можете перейти на страницу загрузки и загрузить инструмент анализа PANTHER Coding Snp.

Поиск по ключевым словам [ править ]

Вводя поисковый запрос в поле поиска по ключевым словам, PANTHER выдаст вам количество записей, соответствующих вашему ключевому слову для генов, семейств, путей и терминов онтологии. Вы можете фильтровать их, определяя интересующие виды или уточняя поиск по другим критериям. Чтобы просмотреть подробную информацию о гене, необходимо щелкнуть идентификатор гена.

Ссылки [ править ]

  1. ^ a b c Томас, PD .; Kejariwal, A .; Кэмпбелл, MJ .; Mi, H .; Diemer, K .; Guo, N .; Ladunga, I .; Улицкий-Лазарева, Б .; и другие. (Январь 2003 г.). «PANTHER: просматриваемая база данных генных продуктов, организованная по биологическим функциям, с использованием тщательно подобранных семейств белков и классификации подсемейств» . Nucleic Acids Res . 31 (1): 334–41. DOI : 10.1093 / NAR / gkg115 . PMC 165562 . PMID 12520017 .  
  2. ^ a b «Проект аннотации эталонного генома GO» .
  3. ^ a b c d e f g h Mi, H .; Муругануджан, А .; Томас, Полицейский. (Январь 2013 г.). «PANTHER в 2013 году: моделирование эволюции функции генов и других атрибутов генов в контексте филогенетических деревьев» . Nucleic Acids Res . 41 (Выпуск базы данных): D377–86. DOI : 10.1093 / NAR / gks1118 . PMC 3531194 . PMID 23193289 .  
  4. ^ а б Хантер, С .; Jones, P .; Mitchell, A .; Apweiler, R .; Attwood, TK .; Bateman, A .; Бернард, Т .; Binns, D .; и другие. (Январь 2012 г.). «InterPro в 2011 году: новые разработки в базе данных прогнозирования семей и доменов» . Nucleic Acids Res . 40 (выпуск базы данных): D306–12. DOI : 10.1093 / NAR / gkr948 . PMC 3245097 . PMID 22096229 .  
  5. ^ Mi, H .; Муругануджан, А .; Томас, Полицейский. (Август 2013 г.). «Масштабный анализ функций генов с использованием системы классификации PANTHER» . Nucleic Acids Res . 8 (8): 1551–66. DOI : 10.1038 / nprot.2013.092 . PMC 6519453 . PMID 23868073 .  
  6. ^ a b c "PANTHERdb" .
  7. ^ Mi, H; Хуанг, X; Муругануджан, А; Тан, H; Миллс, C; Канг, Д; Томас, PD (29 ноября 2016 г.). «PANTHER версии 11: расширенные аннотационные данные из путей в генной онтологии и Reactome, а также усовершенствования инструмента анализа данных» . Исследования нуклеиновых кислот . 45 (D1): D183 – D189. DOI : 10.1093 / NAR / gkw1138 . PMC 5210595 . PMID 27899595 .  
  8. ^ UniProt Consortium (январь 2012). «Реорганизация белкового пространства в Universal Protein Resource (UniProt)» . Nucleic Acids Res . 40 (D1): D71 – D75. DOI : 10.1093 / NAR / gkr981 . PMC 3245120 . PMID 22102590 .  
  9. ^ Gaudet, P .; Ливстон, MS; Льюис, ЮВ; Томас, PD (сентябрь 2011 г.). «Филогенетическое распространение функциональных аннотаций в рамках консорциума Gene Ontology» . Краткий биоинформ . 12 (5): 449–62. DOI : 10.1093 / нагрудник / bbr042 . PMC 3178059 . PMID 21873635 .  
  10. ^ Джин Онтология консорциума (январь 2012). «Генная онтология: улучшения в 2011 году» . Nucleic Acids Res . 40 (D1): D559 – D564. DOI : 10.1093 / NAR / gkr1028 . PMC 3245151 . PMID 22102568 .  
  11. ^ Wu, CH; Apweiler, R .; Bairoch, A .; Натале, Д.А.; Баркер, WC; Boeckmann, B .; Ferro, S .; Gasteiger, E .; и другие. (Январь 2006 г.). «Универсальный ресурс белка (UniProt): расширяющаяся вселенная информации о белках» . Nucleic Acids Res . 34 (выпуск базы данных): D187 – D191. DOI : 10.1093 / NAR / gkj161 . PMC 1347523 . PMID 16381842 .  
  12. ^ Mi, H .; Guo, N .; Томас, PD (январь 2007 г.). «PANTHER версия 6: данные об эволюции последовательности и функции белка с расширенным представлением биологических путей» . Nucleic Acids Res . 35 (выпуск базы данных): D247 – D252. DOI : 10.1093 / NAR / gkl869 . PMC 1716723 . PMID 17130144 .  
  13. ^ Flicek, P .; Amode, MR; Barrell, D .; Бил, К .; Brent, S .; Chen, Y .; Clapham, P .; Coates, G .; и другие. (Январь 2011 г.). «Ансамбл» . Nucleic Acids Res . 39 (проблема с базой данных): D800 – D806. DOI : 10.1093 / NAR / gkq1064 . PMC 3013672 . PMID 21045057 .  
  14. ^ Maglott, D .; Ostell, J .; Прюитт, KD; Татусова, Т. (янв 2011). «Entrez Gene: информация о генах в NCBI» . Nucleic Acids Res . 39 (выпуск базы данных): D52 – D57. DOI : 10.1093 / NAR / gkq1237 . PMC 3013746 . PMID 21115458 .  
  15. ^ Mi, H .; Dong, Q .; Муругануджан, А .; Gaudet, P .; Lewis, S .; Томас, PD (январь 2010 г.). «PANTHER версии 7: улучшенные филогенетические деревья, ортологи и сотрудничество с Консорциумом генных онтологий» . Nucleic Acids Res . 38 (выпуск базы данных): D204 – D210. DOI : 10.1093 / NAR / gkp1019 . PMC 2808919 . PMID 20015972 .  
  16. ^ "эталонный протеом" .
  17. ^ Подробную информацию о статистике PANTHER 9 можно найти здесь ( http://www.pantherdb.org/panther/summaryStats.jsp )