Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

База данных последовательностей GenBank представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их трансляций белков . Он производится и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национального института здравоохранения в Соединенных Штатах ) в рамках Международной нуклеотидную последовательность Database Collaboration (INSDC).

GenBank и его сотрудники получают последовательности, полученные в лабораториях по всему миру от более чем 100 000 различных организмов . База данных была создана в 1982 году Уолтером Гоудом и Лос-Аламосской национальной лабораторией . GenBank стал важной базой данных для исследований в биологических областях, и в последние годы он растет экспоненциально , удваиваясь примерно каждые 18 месяцев. [2] [3]

Выпуск 194, выпущенный в феврале 2013 года, содержал более 150 миллиардов нуклеотидных оснований в более чем 162 миллионах последовательностей. [4] GenBank создан на основе прямых заявок от отдельных лабораторий, а также массовых заявок от крупных центров секвенирования .

Представления [ править ]

В GenBank можно отправлять только оригинальные последовательности. Прямая отправка в GenBank осуществляется с помощью BankIt , который представляет собой веб-форму, или автономной программы отправки Sequin . После получения представления последовательности сотрудники GenBank проверяют подлинность данных и присваивают порядковый номер последовательности, а также проводят проверки качества. Затем представленные материалы отправляются в общедоступную базу данных, где записи могут быть найдены Entrez или загружены по FTP . Массовая отправка тегов экспрессируемой последовательности (EST), сайта с тегами последовательностей (STS), последовательности исследования генома (GSS) иДанные высокопроизводительной последовательности генома (HTGS) чаще всего предоставляются крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома.

История [ править ]

Уолтер Гоуд из группы теоретической биологии и биофизики в Национальной лаборатории Лос-Аламоса и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание в 1982 году общедоступного GenBank. [5] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом, Министерством энергетики и Министерством обороны. LANL сотрудничал в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.

В середине 1980-х биоинформатическая компания Intelligenetics из Стэнфордского университета управляла проектом GenBank в сотрудничестве с LANL. [6] Как один из самых ранних проектов сообщества биоинформатики в Интернете, проект GenBank создал новостные группы BIOSCI / Bionet для содействия общению в открытом доступе среди ученых- биологов . В период с 1989 по 1992 год проект GenBank перешел во вновь созданный Национальный центр биотехнологической информации . [7]

Genbank и EMBL: NucleotideSequences 1986/1987, тома с I по VII.
CDRom Genbank v100

Рост [ править ]

Рост пар оснований GenBank с 1982 по 2018 год в полулогарифмическом масштабе

В примечаниях к выпуску GenBank для версии 162.0 (октябрь 2007 г.) указано, что «с 1982 г. по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». [4] [8] По состоянию на 15 июня 2019 года GenBank версии 232.0 содержит 213 383 758 локусов , 329 835 282 370 оснований из 213 383 758 зарегистрированных последовательностей. [4]

База данных GenBank включает дополнительные наборы данных, которые создаются механически из коллекции данных основной последовательности и поэтому исключаются из этого подсчета.

Неполная идентификация [ править ]

В общедоступных базах данных, в которых можно выполнять поиск с помощью инструмента поиска базового локального сопоставления Национального центра биотехнологической информации (NCBI BLAST), отсутствуют проверенные экспертами последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, количество ссылочных последовательностей ограничено.

В статье, опубликованной в Журнале клинической микробиологии [10], оцениваются результаты секвенирования гена 16S рРНК , проанализированные с помощью GenBank в сочетании с другими общедоступными общедоступными базами данных в Интернете, такими как EzTaxon -e ( https: // web.archive.org/web/20130928154318/http://eztaxon-e.ezbiocloud.net/ ) и BIBI ( https://web.archive.org/web/20151001000357/http://pbil.univ-lyon1) .fr / bibi / ) базы данных. Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более разборчивыми, чем с использованием только GenBank (каппа = 0,66) или других баз данных.

См. Также [ править ]

  • Ансамбль
  • Справочная база данных белков человека (HPRD)
  • Анализ последовательности
  • UniProt
  • Список секвенированных эукариотических геномов
  • Список секвенированных геномов архей
  • RefSeq - база данных эталонных последовательностей
  • Geneious - включает инструмент отправки GenBank
  • Данные открытой науки

Ссылки [ править ]

  1. ^ На странице загрузки в UCSC говорится: « NCBI не накладывает ограничений на использование или распространение данных GenBank. Однако некоторые отправители могут требовать патент , авторское право или другие права интеллектуальной собственности на все или часть предоставленных данных. NCBI не может оценить обоснованность таких утверждений и, следовательно, не может предоставить комментарии или неограниченное разрешение относительно использования, копирования или распространения информации, содержащейся в GenBank ».
  2. ^ Бенсон D; Карш-Мизрахи, И .; Липман, диджей; Ostell, J .; Уиллер, DL; и другие. (2008). «ГенБанк» . Исследования нуклеиновых кислот . 36 (База данных): D25 – D30. DOI : 10.1093 / NAR / gkm929 . PMC 2238942 . PMID 18073190 .  
  3. ^ Бенсон D; Карш-Мизрахи, И .; Липман, диджей; Ostell, J .; Сэйерс, EW; и другие. (2009). «ГенБанк» . Исследования нуклеиновых кислот . 37 (База данных): D26 – D31. DOI : 10.1093 / NAR / gkn723 . PMC 2686462 . PMID 18940867 .  
  4. ^ a b c «Примечания к выпуску GenBank» . NCBI.
  5. ^ Хэнсон, Тодд (2000-11-21). «Умер Уолтер Гоуд, основатель GenBank» . Информационный бюллетень: некролог . Лос-Аламосская национальная лаборатория.
  6. ^ История LANL GenBank
  7. Перейти ↑ Benton D (1990). «Последние изменения в онлайн-сервисе GenBank» . Исследования нуклеиновых кислот . 18 (6): 1517–1520. DOI : 10.1093 / NAR / 18.6.1517 . PMC 330520 . PMID 2326192 .  
  8. ^ Бенсон, DA; Cavanaugh, M .; Кларк, К .; Карш-Мизрахи, И .; Липман, диджей; Ostell, J .; Сэйерс, EW (2012). «ГенБанк» . Исследования нуклеиновых кислот . 41 (выпуск базы данных): D36 – D42. DOI : 10.1093 / NAR / gks1195 . PMC 3531190 . PMID 23193287 .  
  9. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (январь 2011 г.). «ГенБанк» . Nucleic Acids Res . 39 (выпуск базы данных): D32–37. DOI : 10.1093 / NAR / gkq1079 . PMC 3013681 . PMID 21071399 .  
  10. Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb и Nam Yong Lee (май 2012). «Оценка услуг GenBank, EzTaxon и BIBI для молекулярной идентификации изолятов клинических культур крови, которые не были идентифицированы или были неправильно идентифицированы обычными методами» . J. Clin. Microbiol . 50 (5): 1792–1795. DOI : 10.1128 / JCM.00081-12 . PMC 3347139 . PMID 22403421 .  CS1 maint: uses authors parameter (link)
  •  Эта статья включает материалы, являющиеся  общественным достоянием, из документа Национального центра биотехнологической информации : «Справочник NCBI» .


Внешние ссылки [ править ]

  • GenBank
  • Пример записи последовательности для гемоглобина бета
  • BankIt
  • Sequin - автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательностей GenBank.
  • EMBOSS - бесплатное программное обеспечение с открытым исходным кодом для молекулярной биологии
  • GenBank, RefSeq, TPA и UniProt: что в названии?