Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Проект согласованной кодирующей последовательности (CCDS) - это совместная работа по поддержанию набора данных о кодирующих белки областях, которые идентично аннотированы на эталонных геномных сборках человека и мыши. Проект CCDS отслеживает идентичные аннотации белков в эталонных геномах мыши и человека со стабильным идентификатором (CCDS ID) и гарантирует, что они последовательно представлены Национальным центром биотехнологической информации (NCBI) , Ensembl и UCSC Genome Browser . [1] Целостность набора данных CCDS поддерживается за счет строгих проверок качества и постоянного ручного контроля . [2]

Мотивация и предыстория [ править ]

Биологические и биомедицинские исследования стали полагаться на точную и последовательную аннотацию генов и их продуктов на сборках генома. Справочные аннотации геномов доступны из различных источников, каждый со своими независимыми целями и политиками, что приводит к некоторым вариациям аннотаций.

Проект CCDS был создан для определения золотого стандарта набора аннотаций генов, кодирующих белки, которые идентично аннотируются в референсных геномных сборках человека и мыши участвующими группами аннотаций. Наборы генов CCDS, которые были достигнуты на основе консенсуса различных партнеров [2], теперь состоят из более чем 18 000 человеческих и более 20 000 генов мыши (см. Историю выпуска CCDS ). Набор данных CCDS с каждым новым выпуском все чаще представляет все больше альтернативных событий склейки . [3]

Группы участников [ править ]

Участвующие группы аннотаций включают: [3]

  • Национальный центр биотехнологической информации (NCBI)
  • Европейский институт биоинформатики (EBI)
  • Институт Wellcome Trust Sanger (WTSI)
  • Комитет по номенклатуре генов HUGO (HGNC)
  • Информатика генома мышей (MGI)

Ручная аннотация предоставляется:

  • Эталонная последовательность ( RefSeq ) в NCBI
  • Анализ и аннотация человека и позвоночных (HAVANA) в WTSI

Определение набора генов CCDS [ править ]

«Консенсус» определяется как кодирующие белок области, которые совпадают по начальному кодону, стоп-кодону и соединениям сплайсинга, и для которых прогноз соответствует критериям обеспечения качества. [1] Комбинация ручных и автоматизированных аннотаций генома, предоставленных (NCBI) и Ensembl (которая включает ручные аннотации HAVANA), сравнивается для определения аннотаций с совпадающими геномными координатами.

Проверка качества [ править ]

Чтобы гарантировать высокое качество CDS, выполняются множественные тесты обеспечения качества (QA) (Таблица 1). Все тесты выполняются после этапа сравнения аннотаций каждой сборки CCDS и не зависят от тестов QA отдельных групп аннотаций, выполняемых перед сравнением аннотаций. [3]

Аннотации, не прошедшие тесты QA, проходят цикл ручной проверки, которая может улучшить результаты или принять решение об отклонении совпадений аннотаций на основании сбоя QA.

Процесс проверки [ править ]

База данных CCDS уникальна тем, что процесс проверки должен выполняться несколькими сотрудниками, и прежде чем вносить какие-либо изменения, необходимо достичь согласия. Это стало возможным благодаря системе координации сотрудников, которая включает в себя рабочий процесс и форумы для анализа и обсуждения. База данных CCDS управляет внутренним веб-сайтом, который служит множеству целей, включая общение с кураторами, голосование соавторов, предоставление специальных отчетов и отслеживание статуса представительств CCDS. Когда сотрудничающий член группы CCDS идентифицирует идентификатор CCDS, который может нуждаться в проверке, для принятия окончательного решения используется процесс голосования.

Ручная настройка [ править ]

Скоординированное ручное курирование поддерживается веб-сайтом с ограниченным доступом и списком рассылки для обсуждения. Рекомендации CCDS были разработаны для решения конкретных конфликтов, которые наблюдались чаще. Установление руководящих принципов курирования CCDS помогло сделать процесс курирования CCDS более эффективным за счет сокращения количества конфликтующих голосов и времени, затрачиваемого на обсуждение для достижения консенсусного соглашения. Ссылку на руководство CCDS можно найти здесь .

Политики курирования, установленные для набора данных CCDS, были интегрированы в рекомендации по аннотациям RefSeq и HAVANA, и, таким образом, новые аннотации, предоставленные обеими группами, с большей вероятностью будут согласованы и приведут к добавлению идентификатора CCDS. Эти стандарты касаются конкретных проблемных областей, не являются исчерпывающим набором рекомендаций по аннотациям и не ограничивают политики аннотаций какой-либо совместной группы. [2] Примеры включают стандартизированные руководящие принципы курирования для выбора кодона инициации и интерпретации предшествующих ORF и транскриптов, которые, как предполагается, могут быть кандидатами на нонсенс-опосредованный распад.. Курирование происходит постоянно, и любой из сотрудничающих центров может пометить идентификатор CCDS как потенциальное обновление или отзыв.

Противоречивые мнения разрешаются путем консультаций с научными экспертами или другими группами, занимающимися вопросами аннотации, такими как Комитет по номенклатуре генов HUGO (HGNC) и Информационная служба генома мышей (MGI) . Если конфликт не может быть разрешен, соавторы соглашаются отозвать идентификатор CCDS до тех пор, пока не станет доступна дополнительная информация.

Задачи курирования и рекомендации по аннотациям [ править ]

Нонсенс-опосредованный распад (NMD): NMD - самый мощный процесс наблюдения за мРНК . NMD устраняет дефектную мРНК до того, как она может быть переведена в белок. [4] Это важно, потому что если дефектная мРНК транслируется, усеченный белок может вызвать заболевание. Были предложены различные механизмы для объяснения НПРО ; один из них представляет собой модель комплекса экзонных соединений (EJC). В этой модели, если стоп-кодон находится на> 50 нуклеотидов выше последнего соединения экзон-экзон, предполагается, что транскрипт является кандидатом NMD . [2]Сотрудники CCDS используют консервативный метод, основанный на модели EJC, для скрининга транскриптов мРНК. Любые транскрипты, определенные как кандидаты в NMD , исключаются из набора данных CCDS, за исключением следующих ситуаций: [2]

  1. все транскрипты в одном конкретном локусе оцениваются как кандидаты в NMD, однако ранее было известно, что этот локус является областью, кодирующей белок;
  2. есть экспериментальные данные, предполагающие, что функциональный белок продуцируется из транскрипта кандидата NMD .

Раньше как RefSeq, так и HAVANA считали транскрипты-кандидаты NMD транскриптами, кодирующими белок , и, таким образом, эти транскрипты-кандидаты NMD были представлены в наборе данных CCDS. Группа RefSeq и проект HAVANA впоследствии пересмотрели свои политики аннотаций.

Множественные сайты начала трансляции в рамке: инициации трансляции способствуют множественные факторы, такие как открытые рамки считывания (uORF), вторичная структура и контекст последовательности вокруг сайта инициации трансляции. Общий стартовый сайт определен внутри консенсусной последовательности Козака: (GCC) GCCACCAUGG у позвоночных. Последовательность в скобках (GCC) - это мотив с неизвестным биологическим воздействием. [5] Существуют вариации в пределах консенсусной последовательности Козака, например, G или A наблюдается на три нуклеотида выше (в положении -3) от AUG. Основания между положениями -3 и +4 последовательности Козака оказывают наиболее значительное влияние на эффективность трансляции. Следовательно, последовательность (A / G) NNAUGG определяется как сильный сигнал Козака в проекте CCDS.

Согласно механизму сканирования, малая субъединица рибосомы может инициировать трансляцию с первого достигнутого стартового кодона. Есть исключения из модели сканирования:

  1. когда сайт инициации не окружен сильным сигналом Козака, что приводит к неплотному сканированию. Таким образом, рибосома пропускает этот AUG и инициирует трансляцию с нижележащего стартового сайта;
  2. когда более короткая ORF может позволить рибосоме повторно инициировать трансляцию в расположенной ниже ORF . [5]

Согласно руководящим принципам аннотации CCDS, самая длинная ORF должна быть аннотирована, за исключением случаев, когда есть экспериментальные доказательства того, что внутренний стартовый сайт используется для инициации трансляции. Кроме того, для идентификации стартовых кодонов можно использовать другие типы новых данных, такие как данные профилирования рибосом [6] . Набор данных CCDS записывает один сайт инициации перевода для каждого идентификатора CCDS. Любые альтернативные стартовые сайты могут быть использованы для перевода и будут указаны в публичной заметке CCDS.

Открытые рамки считывания восходящего потока : кодоны инициации AUG, расположенные в лидерах транскриптов, известны как восходящие AUG (uAUG). Иногда uAUG связаны с u ORF . u ORF обнаружены примерно в 50% транскриптов человека и мыши. [7] Существование u ORF - еще одна проблема для набора данных CCDS. Механизм сканирования для инициации трансляции предполагает, что малые рибосомные субъединицы (40S) связываются на 5'-конце растущего транскрипта мРНК и сканируют первый стартовый кодон AUG. [5] Возможно, сначала распознается uAUG, а затем транслируется соответствующая uORF. Переведенная u ORF может быть NMDкандидат, хотя исследования показали, что некоторые u ORF могут избегать NMD . Предел среднего размера для u ORF , которые избегают NMD, составляет приблизительно 35 аминокислот . [2] [8] Также было высказано предположение, что u ORF ингибируют трансляцию нижележащего гена, улавливая комплекс инициации рибосомы и вызывая диссоциацию рибосомы от транскрипта мРНК, прежде чем она достигнет областей, кодирующих белок. [4] [7] В настоящее время нет исследований о глобальном влиянии u ORF на регуляцию трансляции.

Текущие правила аннотации CCDS допускают включение транскриптов мРНК, содержащих u ORF, если они отвечают следующим двум биологическим требованиям: [2]

  1. мРНК транскрипт имеет сильный сигнал Козака;
  2. мРНК транскрипт либо ≥ 35 аминокислот или частично совпадает с первичной открытой рамкой считывания .

Сквозные транскрипты: Сквозные транскрипты также известны как соединенные гены или совместно транскрибируемые гены. Сквозные транскрипты определяются как транскрипты, объединяющие по крайней мере часть одного экзона каждого из двух или более отдельных известных (партнерских) генов, которые лежат на одной хромосоме в одной ориентации. [9] Биологическая функция сквозных транскриптов и соответствующих им белковых молекул остается неизвестной. Однако определение гена сквозного чтения в наборе данных CCDS заключается в том, что отдельные гены-партнеры должны быть разными, а транскрипты сквозного чтения должны иметь ≥ 1 экзон (или ≥ 2 сайтов сплайсинга, за исключением случая общего терминала). exon) с каждым из отдельных более коротких локусов. [2] Стенограммы не считаются транскриптами для чтения в следующих случаях:

  1. когда транскрипты производятся из перекрывающихся генов, но не имеют общих сайтов сплайсинга;
  2. когда транскрипты транслируются с генов, которые имеют вложенные друг относительно друга структуры. В этом случае сотрудники CCDS и HGNC договорились, что сквозной транскрипт должен быть представлен как отдельный локус.

Качество эталонной последовательности генома. Поскольку набор данных CCDS создан для представления геномных аннотаций человека и мыши, проблемы с качеством эталонных последовательностей генома человека и мыши становятся еще одной проблемой. Проблемы качества возникают при неправильной сборке эталонного генома. Таким образом, неправильно собранный геном может содержать преждевременные стоп-кодоны , инделки со сдвигом рамки считывания или вероятные полиморфные псевдогены . После выявления этих проблем с качеством сотрудники CCDS сообщают о проблемах Консорциуму ссылок на геном, который исследует и вносит необходимые исправления.

Доступ к данным CCDS [ править ]

Проект CCDS доступен на странице набора данных NCBI CCDS (здесь) , которая предоставляет ссылки для загрузки по FTP и интерфейс запросов для получения информации о последовательностях и местоположениях CCDS. Отчеты CCDS можно получить с помощью интерфейса запросов, который расположен в верхней части страницы набора данных CCDS. Пользователи могут выбрать различные типы идентификаторов, такие как идентификатор CCDS, идентификатор гена, символ гена, идентификатор нуклеотида и идентификатор белка, для поиска конкретной информации CCDS. [1] Отчеты CCDS (рис. 1) представлены в виде таблицы с ссылками на определенные ресурсы, такие как исторический отчет, Entrez Gene [10] или повторный запрос набора данных CCDS. В таблице идентификаторов последовательностей представлена ​​транскрипционная информация в VEGA , Ensembl.и Blink . Таблица расположения хромосом включает геномные координаты для каждого отдельного экзона конкретной кодирующей последовательности. В этой таблице также есть ссылки на несколько различных браузеров генома, которые позволяют визуализировать структуру кодирующей области. [1] Точная нуклеотидная последовательность и последовательность белка конкретной кодирующей последовательности также отображаются в разделе данных последовательности CCDS.

Рисунок 1. Снимок экрана набора данных CCDS, показывающий отчет для белка Itm2a (CCDS 30349).

Текущие приложения [ править ]

Набор данных CCDS является неотъемлемой частью проекта аннотации генов GENCODE [11] и используется в качестве стандарта для высококачественного кодирования определения экзонов в различных областях исследований, включая клинические исследования, крупномасштабные эпигеномные исследования, проекты экзомов и массив экзонов. дизайн. [3] В связи с консенсусной аннотацией CCDs экзонов путем независимых группами аннотаций, ExoME проекты , в частности , рассматривали CCDS кодирующих экзоны в качестве надежных мишеней для последующих исследований (например, для одного нуклеотидной варианты обнаружения), и этих экзонов были использованы в качестве кодирования области мишеней в коммерчески доступных наборах экзома .[12]

История выпусков CCDS [ править ]

Размер набора данных CCDS продолжал расти как за счет обновлений компьютерных аннотаций генома, которые объединяют новые наборы данных, представленных в Международное сотрудничество баз данных нуклеотидных последовательностей (INSDC ), так и за счет текущих мероприятий по курированию, которые дополняют или улучшают эту аннотацию. В таблице 2 приведены основные статистические данные для каждой сборки CCDS, где общедоступные идентификаторы CCDS - это все те, которые не проверялись или ожидали обновления или отзыва на момент текущей даты выпуска.

Полный набор статистических данных о выпусках можно найти на официальном сайте CCDS на их странице « Выпуски и статистика» .

Будущие перспективы [ править ]

Долгосрочные цели включают добавление атрибутов, которые указывают, где аннотация транскрипта также идентична (включая UTR ), и для указания вариантов склейки с разными UTR, которые имеют одинаковый идентификатор CCDS. Также ожидается, что по мере того, как станут доступны более полные и высококачественные данные о последовательностях генома для других организмов, аннотации этих организмов могут быть включены в CCDS.

Набор CCDS станет более полным по мере того, как независимые курирующие группы согласятся в случаях, когда они изначально различаются, по мере того, как происходит дополнительная экспериментальная проверка слабо поддерживаемых генов и по мере того, как методы автоматического аннотации продолжают совершенствоваться. Связь между сотрудничающими группами CCDS продолжается и позволит устранить различия и определить уточнения между циклами обновления CCDS. Ожидается, что обновления для людей будут происходить примерно каждые 6 месяцев, а выпуски мыши - ежегодно. [3]

См. Также [ править ]

  • GENCODE
  • Человеческий геном
  • Информатика генома мыши
  • RefSeq
  • Ансамбль

Ссылки [ править ]

  1. ^ a b c d e Прюитт К.Д., Харроу Дж., Харт Р.А., Валлин С., Дикханс М., Маглотт Д.Р., Сирл С., Фаррелл С.М., Лавленд Дж. Э., Рюф Б.Дж., Харт Э., Санер М.М., Ландрам М.Дж., Акен Б. , Baertsch R, Fernandez-Banet J, Cherry JL, Curwen V, Dicuccio M, Kellis M, Lee J, Lin MF, Schuster M, Shkeda A, Amid C, Brown G, Dukhanina O, Frankish A, Hart J, Maidak BL , Мадж Дж., Мерфи М.Р., Мерфи Т., Раджан Дж., Раджпут Б., Риддик Л.Д., Сноу К., Стюард С., Уэбб Д., Вебер Дж. А., Уилминг Л., Ву В., Бирни Э, Хаусслер Д., Хаббард Т., Остелл Дж, Дурбин Р., Липман Д. (2009). «Проект согласованной кодирующей последовательности (CCDS): определение общего набора генов, кодирующих белок для геномов человека и мыши» . Genome Res . 19 (7): 1316–23.DOI : 10.1101 / gr.080531.108 . PMC  2704439 . PMID  19498102 .
  2. ^ Б с д е е г ч Гарт, RA; Фаррелл, СМ; Loveland, JE; Сунер, ММ; Уилминг, L; Акен, Б; Баррелл, Д.; Франкский, А; Валлин, С; Searle, S; Диханс, М; Харроу, Дж; Прюитт, К.Д. (2012). «Отслеживание и координация международных усилий по курированию проекта CCDS» . База данных . 2012 : bas008. DOI : 10,1093 / базы данных / bas008 . PMC 3308164 . PMID 22434842 .  
  3. ^ Б с д е е Farrell, CM; О'Лири, штат Северная Каролина; Harte, RA; Loveland, JE; Уилминг, LG; Валлин, С; Диханс, М; Баррелл, Д.; Searle, SM; Акен, Б; Hiatt, SM; Франкский, А; Сунер, ММ; Раджпут, B; Стюард, Калифорния; Коричневый, GR; Bennet, R; Мерфи, М; Ву, Вт; Кей, депутат; Харт, Дж; Раджан, Дж; Вебер, Дж; Снег, Ц; Риддик, LD; Хант, Т; Уэбб, Д; Thomas, M; Тамез, П; Рангвала, SH; МакГарви, К.М.; Пуджар, S; Шкеда, А; Mudge, JM; Gonzale, JM; Гилберт, JG; Trevaion, SJ; Baetsch, R; Харроу, JL; Хаббард, Т; Ostell, JM; Haussler, D; Прюитт, К.Д. (2014). «Текущее состояние и новые возможности базы данных согласованных последовательностей кодирования» . Nucleic Acids Res . 42 (D1): D865 – D872. doi :10.1093 / nar / gkt1059 . PMC  3965069 . PMID  24217909 .
  4. ^ a b Альбертс, B; Джонсон, А; Льюис, Дж; Рафф, М; Робертс, К; Уолтер, П. (2002). Молекулярная биология клетки 5-е изд . Нью-Йорк: Наука о гирляндах.
  5. ^ a b c Козак М. (2002). «Расширяя границы механизма сканирования для инициации перевода» . Джин . 299 (1–2): 1–34. DOI : 10.1016 / S0378-1119 (02) 01056-9 . PMC 7126118 . PMID 12459250 .  
  6. ^ Инголия, NT; Брар, Джорджия; Рускин, S; Макгичи, AM; Вайсман, Дж.С. (2014). «Полногеномная аннотация и количественная оценка перевода с помощью профилирования рибосом» . Curr. Protoc. Мол. Биол . Глава 4: Блок – 4.18. DOI : 10.1002 / 0471142727.mb0418s103 . ISBN 9780471142720. PMC  3775365 . PMID  23821443 .
  7. ^ a b Calvo, SE; Пальярни, диджей; Мутха, ВК (2009). «Открытые рамки считывания, расположенные выше по течению, вызывают повсеместное снижение экспрессии белков и являются полиморфными среди людей» (PDF) . Proc. Natl. Акад. Sci. США . 106 (18): 7507–12. Bibcode : 2009PNAS..106.7507C . DOI : 10.1073 / pnas.0810916106 . PMC 2669787 . PMID 19372376 .   
  8. ^ Сильва, AL; Перейра, FJC; Моргадо, А; Kong, J; Мартинс, Р; Фаустино, П; Liebhaber, SA; Ромао, Л. (2006). «Канонический UPF1-зависимый нонсенс-опосредованный распад мРНК ингибируется в транскриптах, несущих короткую открытую рамку считывания, независимо от контекста последовательности» . РНК . 12 (12): 2160–70. DOI : 10,1261 / rna.201406 . PMC 1664719 . PMID 17077274 .  
  9. ^ Пракаш, Тулика; Sharma, Vineet K .; Адати, Наоки; Одзава, Рицуко; Кумар, Навин; Нисида, Юичиро; Фудзикаке, Такаяоши; Такеда, Тадаюки; Тейлор, Тодд Д.; Михалак, Павел (12 октября 2010 г.). «Экспрессия соединенных генов: другой механизм регуляции генов у эукариот» . PLOS ONE . 5 (10): e13284. Bibcode : 2010PLoSO ... 513284P . DOI : 10.1371 / journal.pone.0013284 . PMC 2953495 . PMID 20967262 .  
  10. ^ Maglott, D .; Ostell, J .; Прюитт, KD; Татусова, Т. (28 ноября 2010 г.). «Entrez Gene: информация о генах в NCBI» . Nucleic Acids Res . 39 (База данных): D52 – D57. DOI : 10.1093 / NAR / gkq1237 . PMC 3013746 . PMID 21115458 .  
  11. ^ Харроу, J .; Франкский, А .; Гонсалес, JM; Tapanari, E .; Diekhans, M .; Кокоцински, Ф .; Aken, BL; Barrell, D .; Задисса, А .; Searle, S .; Barnes, I .; Bignell, A .; Бойченко, В .; Хант, Т .; Kay, M .; Mukherjee, G .; Rajan, J .; Despacio-Reyes, G .; Saunders, G .; Стюард, C .; Harte, R .; Lin, M .; Howald, C .; Tanzer, A .; Derrien, T .; Chrast, J .; Walters, N .; Balasubramanian, S .; Pei, B .; Tress, M .; Родригес, JM; Ezkurdia, I .; van Baren, J .; Brent, M .; Haussler, D .; Kellis, M .; Валенсия, А .; Reymond, A .; Герштейн, М .; Guigo, R .; Хаббард, Т.Дж. (5 сентября 2012 г.). «GENCODE: справочная аннотация человеческого генома для проекта ENCODE» . Genome Res . 22 (9): 1760–1774. DOI : 10.1101 / gr.135350.111 .PMC  3431492 . PMID  22955987 .
  12. ^ Парла, Дженнифер S; Иосифов, Иван; Грабилл, Ян; Спектор, Мона С; Крамер, Мелисса; Маккомби, У. Ричард (2011). «Сравнительный анализ захвата экзома» . Genome Biol . 12 (9): R97. DOI : 10.1186 / ГБ-2011-12-9-r97 . PMC 3308060 . PMID 21958622 .  

Внешние ссылки [ править ]

  • Домашняя страница CCDS