Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Genbank )
Перейти к навигации Перейти к поиску

База данных последовательностей GenBank представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их трансляций белков . Он производится и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национального института здравоохранения в Соединенных Штатах ) в рамках Международной нуклеотидную последовательность Database Collaboration (INSDC).

GenBank и его сотрудники получают последовательности, полученные в лабораториях по всему миру из более чем 100 000 различных организмов . База данных была создана в 1982 году Уолтером Гоудом и Лос-Аламосской национальной лабораторией . GenBank стал важной базой данных для исследований в биологических областях и в последние годы рос экспоненциально , удваиваясь примерно каждые 18 месяцев. [2] [3]

Выпуск 194, выпущенный в феврале 2013 года, содержал более 150 миллиардов нуклеотидных оснований в более чем 162 миллионах последовательностей. [4] GenBank создан на основе прямых заявок от отдельных лабораторий, а также массовых заявок от крупных центров секвенирования .

Представления [ править ]

В GenBank можно отправлять только оригинальные последовательности. Прямая отправка в GenBank осуществляется с помощью BankIt , который представляет собой веб-форму, или автономной программы отправки Sequin . После получения представления последовательности сотрудники GenBank проверяют подлинность данных, присваивают порядковый номер последовательности и проводят проверки качества. Затем представленные материалы отправляются в общедоступную базу данных, где записи могут быть извлечены Entrez или загружены по FTP . Массовая отправка тегов экспрессируемой последовательности (EST), сайта с тегами последовательностей (STS), последовательности исследования генома (GSS) иДанные высокопроизводительной последовательности генома (HTGS) чаще всего предоставляются крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома.

История [ править ]

Уолтер Гоуд из группы теоретической биологии и биофизики в Национальной лаборатории Лос-Аламоса и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание общедоступного GenBank в 1982 году. [5] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом, Министерством энергетики и Министерством обороны. LANL сотрудничал в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.

В середине 1980-х биоинформатическая компания Intelligenetics из Стэнфордского университета управляла проектом GenBank в сотрудничестве с LANL. [6] Как один из самых ранних проектов сообщества биоинформатики в Интернете, проект GenBank создал новостные группы BIOSCI / Bionet для содействия общению в открытом доступе между учеными- биологами . В период с 1989 по 1992 год проект GenBank перешел во вновь созданный Национальный центр биотехнологической информации . [7]

Genbank и EMBL: NucleotideSequences 1986/1987, тома с I по VII.
CDRom Genbank v100

Рост [ править ]

Рост пар оснований GenBank с 1982 по 2018 год в полулогарифмическом масштабе

В примечаниях к выпуску GenBank для выпуска 162.0 (октябрь 2007 г.) указано, что «с 1982 г. по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». [4] [8] По состоянию на 15 июня 2019 года GenBank версии 232.0 содержит 213 383 758 локусов , 329 835 282 370 оснований из 213 383 758 зарегистрированных последовательностей. [4]

База данных GenBank включает дополнительные наборы данных, которые создаются механически из коллекции данных основной последовательности и поэтому исключаются из этого подсчета.

Неполная идентификация [ править ]

В общедоступных базах данных, в которых можно выполнять поиск с помощью инструмента поиска базового локального сопоставления Национального центра биотехнологической информации (NCBI BLAST), отсутствуют проверенные экспертами последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, существует ограниченное количество ссылочных последовательностей.

В статье, опубликованной в Журнале клинической микробиологии [10], оцениваются результаты секвенирования гена 16S рРНК , проанализированные с помощью GenBank в сочетании с другими общедоступными общедоступными базами данных в Интернете, такими как EzTaxon -e ( https: // web.archive.org/web/20130928154318/http://eztaxon-e.ezbiocloud.net/ ) и BIBI ( https://web.archive.org/web/20151001000357/http://pbil.univ-lyon1 .fr / bibi / ) базы данных. Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более разборчивыми, чем с использованием только GenBank (каппа = 0,66) или других баз данных.

См. Также [ править ]

  • Ансамбль
  • Справочная база данных белков человека (HPRD)
  • Анализ последовательности
  • UniProt
  • Список секвенированных эукариотических геномов
  • Список секвенированных геномов архей
  • RefSeq - база данных эталонных последовательностей
  • Geneious - включает инструмент отправки GenBank
  • Данные открытой науки

Ссылки [ править ]

  1. ^ На странице загрузки в UCSC говорится: « NCBI не накладывает ограничений на использование или распространение данных GenBank. Однако некоторые отправители могут требовать патент , авторское право или другие права интеллектуальной собственности на все или часть предоставленных данных. NCBI не в состоянии оценить обоснованность таких утверждений и, следовательно, не может предоставить комментарии или неограниченное разрешение относительно использования, копирования или распространения информации, содержащейся в GenBank ».
  2. ^ Бенсон Д; Karsch-Mizrachi, I .; Липман, диджей; Ostell, J .; Уиллер, DL; и другие. (2008). «ГенБанк» . Исследования нуклеиновых кислот . 36 (База данных): D25 – D30. DOI : 10.1093 / NAR / gkm929 . PMC 2238942 . PMID 18073190 .  
  3. ^ Бенсон Д; Karsch-Mizrachi, I .; Липман, диджей; Ostell, J .; Сэйерс, EW; и другие. (2009). «ГенБанк» . Исследования нуклеиновых кислот . 37 (База данных): D26 – D31. DOI : 10.1093 / NAR / gkn723 . PMC 2686462 . PMID 18940867 .  
  4. ^ a b c «Примечания к выпуску GenBank» . NCBI.
  5. ^ Хэнсон, Тодд (2000-11-21). «Умер Уолтер Гоуд, основатель GenBank» . Информационный бюллетень: некролог . Лос-Аламосская национальная лаборатория.
  6. ^ История LANL GenBank
  7. Перейти ↑ Benton D (1990). «Последние изменения в онлайн-сервисе GenBank» . Исследования нуклеиновых кислот . 18 (6): 1517–1520. DOI : 10.1093 / NAR / 18.6.1517 . PMC 330520 . PMID 2326192 .  
  8. ^ Бенсон, DA; Cavanaugh, M .; Кларк, К .; Karsch-Mizrachi, I .; Липман, диджей; Ostell, J .; Сейерс, EW (2012). «ГенБанк» . Исследования нуклеиновых кислот . 41 (выпуск базы данных): D36 – D42. DOI : 10.1093 / NAR / gks1195 . PMC 3531190 . PMID 23193287 .  
  9. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (январь 2011 г.). «ГенБанк» . Nucleic Acids Res . 39 (выпуск базы данных): D32–37. DOI : 10.1093 / NAR / gkq1079 . PMC 3013681 . PMID 21071399 .  
  10. Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb и Nam Yong Lee (май 2012). «Оценка услуг GenBank, EzTaxon и BIBI для молекулярной идентификации изолятов клинических культур крови, которые не были идентифицированы или были неправильно идентифицированы обычными методами» . J. Clin. Microbiol . 50 (5): 1792–1795. DOI : 10.1128 / JCM.00081-12 . PMC 3347139 . PMID 22403421 .  CS1 maint: uses authors parameter (link)
  •  Эта статья включает материалы, являющиеся  общественным достоянием, из документа Национального центра биотехнологической информации : «Справочник NCBI» .


Внешние ссылки [ править ]

  • ГенБанк
  • Пример записи последовательности для гемоглобина бета
  • BankIt
  • Sequin - автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательностей GenBank.
  • EMBOSS - бесплатное программное обеспечение с открытым исходным кодом для молекулярной биологии
  • GenBank, RefSeq, TPA и UniProt: что в названии?