Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

WormBase - это онлайновая биологическая база данных о биологии и геноме нематодного модельного организма Caenorhabditis elegans, содержащая информацию о других родственных нематодах. [1] [2] WormBase используется исследовательским сообществом C. elegans как информационный ресурс и как место для публикации и распространения своих результатов. База данных регулярно обновляется, новые версии выпускаются каждые два месяца. WormBase - одна из организаций, участвующих в проекте Generic Model Organism Database (GMOD).

Содержание [ править ]

WormBase состоит из следующих основных наборов данных:

  • Аннотированные геномы Caenorhabditis Элеганс , Caenorhabditis briggsae , Caenorhabditis remanei , Caenorhabditis brenneri , Caenorhabditis принудительная повинность , Pristionchus расШсиз , Haemonchus contortus , Meloidogyne Hapla , Meloidogyne Incognita , Brugia malayi и Onchocerca заворот ;
  • Собранные вручную аннотации, описывающие функцию ~ 20 500 генов, кодирующих белок C. elegans, и ~ 16 000 некодирующих генов C. elegans ;
  • Генные семьи;
  • Ортологии;
  • Сайты связывания геномных факторов транскрипции
  • Исчерпывающая информация о мутантных аллелях и их фенотипах;
  • Скрининг полногеномной РНКи ( РНК-интерференция );
  • Генетические карты, маркеры и полиморфизмы;
  • C. Элеганс физической карты;
  • Профили экспрессии генов (стадия, ткань и клетка) из микрочипов, анализа SAGE и слияния промоторов GFP;
  • Полная линия клеток червя;
  • Схема подключения нервной системы червя;
  • Белково-белковое взаимодействие Данные интерактома ;
  • Генетические регуляторные отношения;
  • Подробная информация о внутри- и межвидовых последовательности гомологов (со ссылками на другие модели ОРГАНИЗМА баз данных ).

Кроме того, WormBase содержит последнюю доступную для поиска библиографию исследований C. elegans и связана с проектом WormBook .

Инструменты [ править ]

WormBase предлагает множество способов поиска и извлечения данных из базы данных:

  • WormMart , Wiki - [3] инструмент для получения различной информации о многих генах (или последовательностях этих генов). Это была реализация BioMart на WormBase . [4]
  • WormMine , Wiki - по состоянию на 2016 год [3] основной объект интеллектуального анализа данных. Это реализация InterMine на WormBase . [5]
  • Браузер генома - просматривайте гены C. elegans (и других видов) в их геномном контексте.
  • Textpresso - инструмент поиска, который запрашивает опубликованную литературу о C. elegans (включая выдержки из собраний) и подмножество литературы по нематодам.

Последовательность курирования [ править ]

Под курированием последовательности в WormBase понимается поддержание и аннотация первичной геномной последовательности и консенсусного набора генов.

Последовательность генома [ править ]

Хотя C. elegansПоследовательность генома является наиболее точной и полной последовательностью генома эукариот, и она постоянно нуждалась в уточнении по мере создания новых доказательств. Многие из этих изменений представляли собой вставки или делеции единичных нуклеотидов, однако было обнаружено несколько крупных неправильных сборок. Например, в 2005 году пришлось инвертировать космиду размером 39 kb. Другие улучшения произошли в результате сравнения геномной ДНК с последовательностями кДНК и анализа высокопроизводительных данных RNASeq. Когда выявляются различия между геномной последовательностью и транскриптами, повторный анализ исходных геномных данных часто приводит к модификации геномной последовательности. Изменения в геномной последовательности создают трудности при сравнении хромосомных координат данных, полученных из разных версий WormBase. Чтобы облегчить эти сравнения,программа переназначения координат и данные доступны по адресу: http://wiki.wormbase.org/index.php/Converting_Coordinates_between_releases

Модели структуры генов [ править ]

Все наборы генов видов WormBase изначально были созданы с помощью программ прогнозирования генов. Программы предсказания генов дают разумный набор структур генов, но лучшие из них правильно предсказывают только около 80% полных структур генов. Им сложно предсказать гены с необычной структурой, а также гены со слабым сигналом начала трансляции, слабыми сайтами сплайсинга или генами с одним экзоном. Они могут неверно предсказать модель кодирующего гена, в которой ген является псевдогеном, и они плохо предсказывают изоформы гена, если вообще предсказывают.

Генные модели генов C. elegans , C. briggsae , C. remanei и C. brenneri курируются вручную. Большинство изменений структуры генов было основано на данных транскриптов из крупномасштабных проектов, таких как библиотеки EST Юджи Кохары, проект Orfeome Марка Видаля (worfdb.dfci.harvard.edu/), данные Waterston и Hillier's Illumina и данные Македонки Митревой 454. Однако другие типы данных (например, выравнивание белков, программы предсказания ab initio , лидерные сайты транс-сплайсинга, сигналы поли-A и сайты добавления, SAGE и TEC-REDметки транскриптов, масс-спектроскопические пептиды и консервативные белковые домены) полезны для уточнения структур, особенно там, где экспрессия низкая и поэтому транскрипты недостаточно доступны. Когда гены между доступными видами нематод сохраняются, сравнительный анализ также может быть очень информативным.

WormBase рекомендует исследователям сообщать им через службу поддержки, если у них есть доказательства неправильной структуры генов. Любые доказательства изменения последовательности кДНК или мРНК следует направлять в EMBL / GenBank / DDBJ; это помогает в подтверждении и доказательствах для генной модели, поскольку WormBase регулярно извлекает данные о последовательностях из этих общедоступных баз данных. Это также делает данные общедоступными, что позволяет исследователям делать соответствующие ссылки и признания.

Когда любое изменение вносится в CDS (или псевдоген), старая генная модель сохраняется как объект «истории». Он будет иметь суффиксное имя, например: «AC3.5: wp119», где «AC3.5» - это имя CDS, а «119» относится к выпуску базы данных, в котором было внесено изменение. Причина изменения и доказательства для изменения добавляются к аннотации CDS - их можно увидеть в разделе Visible / Remark раздела CDS «Отображение дерева» на веб-сайте WormBase.

Номенклатура генов [ править ]

Гены [ править ]

В WormBase ген - это область, которая экспрессируется, или область, которая была экспрессирована и теперь является псевдогеном. Гены имеют уникальные идентификаторы, например WBGene00006415. Все гены WormBase C. elegans также имеют название последовательности, которое происходит от космиды, фосмиды или клона YAC, на котором они расположены, например F38H4.7 , что указывает на то, что он находится на космиде 'F38H4', и их по крайней мере 6 другие гены этой космиды. Если ген продуцирует белок, который можно классифицировать как член семейства, гену также может быть присвоено имя CGC, например tag-30, указывающее, что это 30-й член семейства генов tag . Присвоение фамилий генов контролируется WormBase [6]и запросы имен следует делать перед публикацией через форму по адресу: http://tazendra.caltech.edu/~azurebrd/cgi-bin/forms/gene_name.cgi

Из этого формата есть несколько исключений, например, гены cln-3.1 , cln-3.2 и cln-3.3, которые в равной степени похожи на человеческий ген CLN3 . Названия генов GCG для видов non-elegans в WormBase имеют добавленный трехбуквенный код вида, например Cre-acl-5 , Cbr-acl-5 , Cbn-acl-5 .

Ген может быть псевдогеном или может экспрессировать один или несколько генов некодирующей РНК (нкРНК) или белок-кодирующих последовательностей (CDS).

Псевдогены [ править ]

Псевдогены - это гены, которые не производят разумного функционального транскрипта. Они могут быть псевдогенами кодирующих генов или некодирующей РНК и могут быть целыми или фрагментами гена и могут выражать или не выражать транскрипт. Граница между тем, что считается разумным транскриптом кодирования, иногда бывает субъективной, поскольку при отсутствии других доказательств использование слабых сайтов сплайсинга или коротких экзонов часто может привести к предполагаемой, хотя и неудовлетворительной, модели CDS. Псевдогены и гены с проблемной структурой постоянно пересматриваются в WormBase, и для определения их статуса используются новые данные.

CDS [ править ]

Кодирующие последовательности (CDS) - единственная часть структуры гена, которая вручную настраивается в WormBase. Структура гена и его транскриптов определяется структурой их CDS.

CDS имеют имя последовательности, которое происходит от того же имени последовательности, что и их родительский объект Gene, поэтому ген «F38H4.7» имеет CDS, называемый «F38H4.7». CDS определяет кодирующие экзоны в гене от кодона START (метионин) до кодона STOP (включительно).

Любой ген может кодировать несколько белков в результате альтернативного сплайсинга. Эти изоформы имеют имя, которое образовано из имени последовательности гена с добавленной уникальной буквой. В случае гена bli-4 известно 6 изоформ CDS, называемых K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e и K04F10.4f.

В литературе принято ссылаться на изоформы с использованием названия семейства генов CGC с добавленной буквой, например pha-4a , однако это не имеет значения в базе данных WormBase, и поиск pha-4a в WormBase ничего не даст. Правильное имя этой изоформы - это либо имя CDS / транскрипта: F38A6.1a , либо, что еще лучше, имя белка: WP: CE15998 .

Транскрипты генов [ править ]

Транскрипты гена в WormBase автоматически выводятся путем картирования любых доступных выравниваний кДНК или мРНК на модель CDS. Следовательно, эти генные транскрипты часто включают экзоны UTR, окружающие CDS. Если нет доступных транскриптов кДНК или мРНК, то транскрипты генов будут иметь точно такую ​​же структуру, что и CDS, на которых они моделируются.

Транскрипты генов названы по имени последовательности CDS, использованной для их создания, например, F38H4.7 или K04F10.4a .

Однако, если существует альтернативный сплайсинг в UTR, который не изменит последовательность белка, альтернативно сплайсированные транскрипты называются с добавленной цифрой, например: K04F10.4a.1 и K04F10.4a.2 . Если нет изоформ кодирующего гена, например AC3.5 , но есть альтернативный сплайсинг в UTR, будет несколько транскриптов с именами AC3.5.1 и AC3.5.2 и т. Д. Если нет альтернативных транскриптов UTR, один coding_transcript называется так же, как CDS, и не имеет добавленного .1, как в случае K04F10.4f.

Опероны [ править ]

Группы генов, которые транскрибируются как опероны, рассматриваются как объекты оперонов. Они имеют такие названия, как CEOP5460, и подбираются вручную с использованием данных из сайтов лидерной последовательности, подвергнутых транс-сплайсингу SL2.

Гены некодирующей РНК [ править ]

В WormBase есть несколько классов классов генов некодирующей РНК:

  • Гены тРНК предсказываются программой tRNAscan-SE.
  • Гены рРНК предсказываются по гомологии с другими видами.
  • Гены мяРНК в основном импортируются из Rfam .
  • Гены piRNA взяты из анализа характерного мотива в этих генах.
  • Гены miRNA в основном были импортированы из miRBase . В них размечены первичный и зрелый транскрипты. Первичный транскрипт будет иметь имя последовательности, например W09G3.10, а зрелый транскрипт будет иметь букву, добавленную к этому имени, например, W09G3.10a (и, если есть альтернативные зрелые транскрипты, W09G3.10b и т. Д.).
  • Гены snoRNA в основном импортируются из Rfam или из газет.
  • Гены нкРНК, которые не выполняют других очевидных функций, но которые, очевидно, не кодируют белок и не являются псевдогенами, подвергаются курированию. Многие из них сохраняют гомологию с генами других видов. Некоторые из них экспрессируются в обратном смысле по отношению к генам, кодирующим белок.

Также имеется один ген скРНК.

Транспозоны [ править ]

Транспозоны не классифицируются как гены и поэтому не имеют родительского генного объекта. Их структура курируется как объект Transposon_CDS с именем типа C29E6.6 .

Другие виды [ править ]

У видов non-elegans в WormBase есть геномы, которые были собраны с помощью технологий секвенирования, которые не включают секвенирование космид или YAC. Следовательно, эти виды не имеют названий последовательностей для CDS и транскриптов генов, основанных на названиях космид. Вместо этого у них есть уникальные буквенно-цифровые идентификаторы, составленные как имена в таблице ниже.

Белки [ править ]

Белковые продукты гена создаются путем трансляции последовательностей CDS. Каждой уникальной последовательности белка дается уникальное идентифицирующее имя, например WP: CE40440 . Примеры названий идентификаторов белков для каждого вида в WormBase приведены в таблице ниже.

Две последовательности CDS из разных генов одного вида могут быть идентичными, и поэтому возможно иметь идентичные белки, кодируемые отдельными генами. Когда это происходит, для белка используется одно уникальное идентифицирующее имя, даже если он продуцируется двумя генами.

ParaSite [ править ]

WormBase ParaSite - это вспомогательный портал для примерно 100 проектов геномов паразитических гельминтов ( нематод и платихельминтов ), разработанный Европейским институтом биоинформатики и Wellcome Trust Sanger Institute . [7] Все геномы собраны и аннотированы. Также доступна дополнительная информация, такая как белковые домены и термины генной онтологии . Генные деревья позволяют выравнивать ортологи между паразитическими червями, другими нематодами и видами компараторов, не являющимися червями. Предлагается инструмент интеллектуального анализа данных BioMart, обеспечивающий крупномасштабный доступ к данным.

Управление WormBase [ править ]

WormBase является сотрудничество между Европейским биоинформатики институтом , Wellcome Trust Sanger Institute , Онтарио института по исследованию рака , Вашингтонского университета в Сент - Луисе , и Калифорнийский технологический институт . Она поддерживается грантом P41-HG002223 из Национального института здравоохранения и грант G0701197 из Медицинского исследовательского совета британского . [8] Caltech выполняет биологическое лечение и разрабатывает лежащие в основе онтологии, EBI выполняет курирование и вычисление последовательностей, а также построение баз данных, Sanger в первую очередь участвует в курировании и отображении геномов и генов паразитических нематод, а OICR разрабатывает веб-сайт и основные инструменты интеллектуального анализа данных.

Примечания и ссылки [ править ]

  1. ^ Харрис, TW; и другие. (2009-11-12). «WormBase: всеобъемлющий ресурс для исследования нематод» . Nucleic Acids Res . 38 (Выпуск базы данных): D463–7. DOI : 10.1093 / NAR / gkp952 . PMC 2808986 . PMID 19910365 . Проверено 26 апреля 2010 .  
  2. ^ Уильямс, GW; Дэвис, Пенсильвания; Роджерс, А.С.; Bieri, T .; Озерский, П .; Спит, Дж. (2011). «Методы и стратегии курирования структуры генов в WormBase» . База данных . 2011 : baq039. DOI : 10,1093 / базы данных / baq039 . PMC 3092607 . PMID 21543339 .  
  3. ^ a b «Период заката WormMart: будет удален с 1 января 2016 года» . Блог . WormBase. 13 ноя 2015.
  4. ^ "WormMart" . Интеллектуальный анализ данных . WormBase.
  5. ^ "Червячная шахта" . Интеллектуальный анализ данных . WormBase.
  6. ^ "Номенклатура генов WormBase" . Червячная база .
  7. ^ http://parasite.wormbase.org
  8. ^ http://www.wormbase.org/wiki/index.php/WormBaseWiki:Copyrights

Внешние ссылки [ править ]

  • WormBase
  • WormBase ParaSite
  • Веб-сайт WormBook , онлайн-учебник, дополняющий WormBase.
  • Textpresso , поисковая машина по C. elegans и другой биологической литературе.
  • WormBase Вики
  • Примечания к выпуску , сведения о последнем выпуске WormBase
  • WormBase: лучшее программное обеспечение, более богатое содержание Nucleic Acids Research Статья, описывающая WormBase (2006).
  • WormBase в Твиттере

См. Также [ править ]

  • Flybase
  • Xenbase