Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

UniGene - это база данных транскриптомов NCBI и, таким образом, несмотря на название, не в первую очередь база данных для генов . Каждая запись представляет собой набор транскриптов, которые, по-видимому, происходят из одного и того же локуса транскрипции (т. Е. Гена или экспрессированного псевдогена ). Информация о сходстве белков , экспрессии генов, клонах кДНК и геномном местоположении включена в каждую запись.

Доступны описания процедур построения на основе транскриптов UniGene и генома.

Подробное описание базы данных UniGene [ править ]

Ресурс UniGene, разработанный NCBI , объединяет EST и другие последовательности мРНК вместе с кодирующими последовательностями (CDS), аннотированными на геномной ДНК, в подмножества связанных последовательностей. В большинстве случаев каждый кластер состоит из последовательностей, продуцируемых одним геном, включая транскрипты, подвергнутые альтернативному сплайсингу. Однако некоторые гены могут быть представлены более чем одним кластером. Кластеры специфичны для организма и в настоящее время доступны для людей , мышей , крыс , рыбок данио и крупного рогатого скота.. Они строятся в несколько этапов с использованием автоматического процесса, основанного на специальных алгоритмах сравнения последовательностей . Сначала нуклеотидные последовательности ищутся на предмет примесей, таких как митохондриальные , рибосомные и векторные последовательности, повторяющиеся элементы., и последовательности низкой сложности. После скрининга последовательность должна содержать не менее 100 оснований, чтобы быть кандидатом на включение в UniGene. мРНК и геномная ДНК сначала группируются в генные связи. Второе сравнение последовательностей связывает EST друг с другом и со связями генов. На этом этапе все кластеры «закреплены» и содержат либо последовательность с сайтом полиаденилирования, либо два EST, помеченных как исходящие с 3-го конца клона. Края на основе клонов добавляются путем связывания 5 и 3 EST, происходящих от одного и того же клона. В некоторых случаях такое связывание может объединять кластеры, идентифицированные на предыдущем этапе. Наконец, незакрепленные EST и кластеры генов размера 1 (которые могут представлять редкие транскрипты) сравниваются с другими кластерами UniGene с более низкой строгостью. Сборка UniGene обновляется еженедельно,и последовательности, составляющие кластер, могут изменяться. Таким образом, ссылаться на кластер UniGene по его идентификатору небезопасно; вместо этого следует использовать Регистрационные номера GenBank последовательностей в кластере.

По состоянию на июль 2000 г. человеческое подмножество UniGene содержало 1,7 миллиона последовательностей в 82 000 кластеров; 98% этих кластерных последовательностей были EST, а оставшиеся 2% были из мРНК или CDS, аннотированных на геномной ДНК. Эти человеческие кластеры могут представлять собой фрагменты до 82000 уникальных человеческих генов, что означает, что многие человеческие гены теперь представлены в кластере UniGene. (Это число, несомненно, является завышенной оценкой количества генов в геноме человека, поскольку некоторые гены могут быть представлены более чем одним кластером.) Только 1,4% кластеров полностью лишены EST, что означает, что большинство генов человека представлено по крайней мере одним кластером. СТАНДАРТНОЕ ВОСТОЧНОЕ ВРЕМЯ. Напротив, похоже, что большинство генов человека было идентифицировано только с помощью EST; только 16% кластеров содержат мРНК или CDS, аннотированные на геномной ДНК. Поскольку для мыши доступно меньше EST,крысы и рыбок данио кластеры UniGene не являются репрезентативными для уникальных генов в геноме. UniGene мыши содержит 895 000 последовательностей в 88 000 кластеров, а UniGene крысы содержит 170 000 последовательностей в 37 000 кластеров.

Новый ресурс UniGene, HomoloGene, включает тщательно отобранные и рассчитанные ортологи и гомологи для генов человека, мыши, крысы и рыбок данио. Вычисленные ортологи и гомологи являются результатом сравнения нуклеотидных последовательностей между всеми кластерами UniGene для каждой пары организмов. Гомологи считаются наиболее подходящими для кластера UniGene в одном организме и кластера во втором организме. Когда две последовательности в разных организмах наилучшим образом соответствуют друг другу (взаимное наилучшее соответствие), кластеры UniGene, соответствующие паре последовательностей, считаются предполагаемыми ортологами. Специальный символ указывает на то, что кластеры UniGene в трех или более организмах имеют взаимно согласованные ортологические отношения. Рассчитанные ортологи и гомологи считаются предполагаемыми,поскольку они основаны только на сравнении последовательностей. Кураторские ортологи предоставлены Базой данных генома мышей (MGD) в лаборатории Джексона и Информационной базой данных о рыбках данио (ZFIN) в Университете Орегона, а также могут быть получены из научной литературы. Запросы к UniGene вводятся в текстовое поле на любой из страниц UniGene. Условиями запроса могут быть, например, идентификатор UniGene, имя гена, текстовый термин, который находится где-то в записи UniGene, или номер доступа EST или последовательности гена в кластере. Например, кластер под названием «Домен 10 дезинтегрина и металлопротеиназы», ​​который содержит последовательность для человеческого ADAM10, можно получить, введя ADAM10, дезинтегрин, AF009615 (регистрационный номер ADAM10 в GenBank),или H69859 (регистрационный номер GenBank EST в кластере). Чтобы запросить определенную часть записи UniGene, используйте символ @. Например, @gene (символ) ищет гены с именем символа, заключенным в круглые скобки, @chr (num) ищет записи, которые сопоставляются с номером хромосомы, @lib (id) возвращает записи в библиотеке кДНК, идентифицированные идентификатором , а @pid (id) выбирает записи, связанные с идентификатором идентификатора белка GenBank.а @pid (id) выбирает записи, связанные с идентификатором идентификатора белка GenBank.и @pid (id) выбирает записи, связанные с идентификатором идентификатора белка GenBank.

Страница результатов запроса содержит список всех кластеров UniGene, соответствующих запросу. Каждый кластер идентифицируется идентификатором, описанием и символом гена, если таковой имеется. Идентификаторы кластера имеют префикс Hs для Homo sapiens, Rn для Rattus norvegicus, Mm для Mus musculus или Dn для Danio rerio. Описания кластеров UniGene берутся из LocusLink, если таковой имеется, или из заголовка последовательности в кластере. Страница отчета UniGene для каждого кластера связана с данными из других ресурсов NCBI (рис. 12.5). Вверху страницы находятся ссылки на LocusLink, который предоставляет описательную информацию о генетических локусах (Pruitt et al., 2000), OMIM, каталог генов человека и генетических нарушений, и HomoloGene.Далее перечислены сходства между трансляциями последовательностей ДНК в кластере и последовательностей белков от модельных организмов, включая человека, мышь, крысу, плодовую муху и червя. В следующем разделе описывается соответствующая картографическая информация. За ним следует «информация об экспрессии», в которой перечислены ткани, из которых были созданы EST в кластере, а также ссылки на базу данных SAGE. Далее перечислены последовательности, составляющие кластер, вместе со ссылкой для загрузки этих последовательностей.вместе со ссылками на базу данных SAGE. Далее перечислены последовательности, составляющие кластер, вместе со ссылкой для загрузки этих последовательностей.вместе со ссылками на базу данных SAGE. Далее перечислены последовательности, составляющие кластер, вместе со ссылкой для загрузки этих последовательностей.

Важно отметить, что в кластерах, которые содержат только EST (т.е. без мРНК или аннотированных CDS), будут отсутствовать некоторые из этих полей, такие как LocusLink, OMIM и связи мРНК / ген. Заголовки UniGene для таких кластеров, такие как «EST», слабо похожие на ORF2, содержат домен обратной транскриптазы [H. sapiens] », происходят от названия охарактеризованного белка, с которым совпадает транслируемая последовательность EST. Название кластера может быть таким же простым, как «EST», если EST не имеют существенного сходства с охарактеризованными белками. [1]

Прекращение использования UniGene [ править ]

1 февраля 2019 года NCBI объявил, что удаляет базу данных UniGene, потому что «эталонные геномы доступны для большинства организмов с большим исследовательским сообществом. Следовательно, использование UniGene и потребность в нем значительно снизились». [2] Доступ к сборкам UniGene будет по-прежнему доступен через FTP.

Связанные базы данных [ править ]

  • База данных NCBI Gene База данных NCBI, каталогизирующая отдельные гены
  • База данных HomoloGene NCBI, в которой хранятся группы гомологичных генов от разных организмов

См. Также [ править ]

  • Entrez , особенно Entrez # Базы данных
  • PubMed
  • Национальный центр биотехнологической информации

Ссылки [ править ]

  1. ^ Андреас Д. Баксеванис и Б. Ф. Фрэнсис Уэлетт | БИОИНФОРМАТИКА Практическое руководство по анализу генов и белков (2-е издание, 2001 г.) || JOHN WILEY & SONS, INC. | ISBN  0-471-38391-0 | ISBN 978-0-471-38391-8 | 
  2. ^ "NCBI, чтобы уйти в отставку UniGene" . Проверено 12 февраля 2019 .

Внешние ссылки [ править ]

  • Домашняя страница UniGene в NCBI
  • UniGene FAQ