Содержание | |
---|---|
Описание | Нуклеотидные последовательности для более чем 300 000 организмов с поддерживающей библиографической и биологической аннотацией. |
Типы данных захвачены |
|
Организмы | Все |
Контакт | |
Исследовательский центр | NCBI |
Первичное цитирование | PMID 21071399 |
Дата выхода | 1982 |
Доступ | |
Формат данных | |
Интернет сайт | NCBI |
Скачать URL | ncbi ftp |
URL-адрес веб-службы | |
Инструменты | |
Интернет | ВЗРЫВ |
Автономный | ВЗРЫВ |
Разное | |
Лицензия | Неясно [1] |
База данных последовательностей GenBank представляет собой аннотированную коллекцию с открытым доступом всех общедоступных нуклеотидных последовательностей и их трансляций белков . Он производится и поддерживается Национальным центром биотехнологической информации (NCBI; часть Национального института здравоохранения в Соединенных Штатах ) в рамках Международной нуклеотидную последовательность Database Collaboration (INSDC).
GenBank и его сотрудники получают последовательности, полученные в лабораториях по всему миру из более чем 100 000 различных организмов . База данных была создана в 1982 году Уолтером Гоудом и Лос-Аламосской национальной лабораторией . GenBank стал важной базой данных для исследований в биологических областях и в последние годы рос экспоненциально , удваиваясь примерно каждые 18 месяцев. [2] [3]
Выпуск 194, выпущенный в феврале 2013 года, содержал более 150 миллиардов нуклеотидных оснований в более чем 162 миллионах последовательностей. [4] GenBank создан на основе прямых заявок от отдельных лабораторий, а также массовых заявок от крупных центров секвенирования .
Представления [ править ]
В GenBank можно отправлять только оригинальные последовательности. Прямая отправка в GenBank осуществляется с помощью BankIt , который представляет собой веб-форму, или автономной программы отправки Sequin . После получения представления последовательности сотрудники GenBank проверяют подлинность данных, присваивают порядковый номер последовательности и проводят проверки качества. Затем представленные материалы отправляются в общедоступную базу данных, где записи могут быть извлечены Entrez или загружены по FTP . Массовая отправка тегов экспрессируемой последовательности (EST), сайта с тегами последовательностей (STS), последовательности исследования генома (GSS) иДанные высокопроизводительной последовательности генома (HTGS) чаще всего предоставляются крупными центрами секвенирования. Группа прямых заявок GenBank также обрабатывает полные последовательности микробного генома.
История [ править ]
Уолтер Гоуд из группы теоретической биологии и биофизики в Национальной лаборатории Лос-Аламоса и другие создали Лос-Аламосскую базу данных последовательностей в 1979 году, кульминацией которой стало создание общедоступного GenBank в 1982 году. [5] Финансирование было предоставлено Национальными институтами здравоохранения , Национальным научным фондом, Министерством энергетики и Министерством обороны. LANL сотрудничал в GenBank с фирмой Bolt, Beranek и Newman , и к концу 1983 года в нем хранилось более 2000 последовательностей.
В середине 1980-х биоинформатическая компания Intelligenetics из Стэнфордского университета управляла проектом GenBank в сотрудничестве с LANL. [6] Как один из самых ранних проектов сообщества биоинформатики в Интернете, проект GenBank создал новостные группы BIOSCI / Bionet для содействия общению в открытом доступе между учеными- биологами . В период с 1989 по 1992 год проект GenBank перешел во вновь созданный Национальный центр биотехнологической информации . [7]
Рост [ править ]
В примечаниях к выпуску GenBank для выпуска 162.0 (октябрь 2007 г.) указано, что «с 1982 г. по настоящее время количество баз в GenBank удваивается примерно каждые 18 месяцев». [4] [8] По состоянию на 15 июня 2019 [Обновить]года GenBank версии 232.0 содержит 213 383 758 локусов , 329 835 282 370 оснований из 213 383 758 зарегистрированных последовательностей. [4]
База данных GenBank включает дополнительные наборы данных, которые создаются механически из коллекции данных основной последовательности и поэтому исключаются из этого подсчета.
Организм | пар оснований |
---|---|
Homo sapiens | 1,6310774187 × 10 10 |
Mus musculus | 9.974977889 × 10 9 |
Раттус норвегикус | 6,521253272 × 10 9 |
Bos taurus | 5,386258455 × 10 9 |
Zea Mays | 5.062731057 × 10 9 |
Sus scrofa | 4,88786186 × 10 9 |
Данио Рерио | 3,120857462 × 10 9 |
Стронгилоцентротус пурпуратус | 1,435236534 × 10 9 |
Macaca mulatta | 1,256203101 × 10 9 |
Oryza sativa Japonica Group | 1,255686573 × 10 9 |
Nicotiana tabacum | 1,197357811 × 10 9 |
Xenopus (Silurana) tropicalis | 1,249938611 × 10 9 |
Дрозофила меланогастер | 1,11996522 × 10 9 |
Пан троглодиты | 1,008323292 × 10 9 |
Arabidopsis thaliana | 1,144226616 × 10 9 |
Обыкновенная волчанка | 951 238 343 |
Vitis vinifera | 999 010 073 |
Gallus gallus | 899 631 338 |
Глицин макс | 906 638 854 |
Triticum aestivum | 898 689 329 |
Неполная идентификация [ править ]
В общедоступных базах данных, в которых можно выполнять поиск с помощью инструмента поиска базового локального сопоставления Национального центра биотехнологической информации (NCBI BLAST), отсутствуют проверенные экспертами последовательности типовых штаммов и последовательности нетиповых штаммов. С другой стороны, хотя коммерческие базы данных потенциально содержат высококачественные данные отфильтрованных последовательностей, существует ограниченное количество ссылочных последовательностей.
В статье, опубликованной в Журнале клинической микробиологии [10], оцениваются результаты секвенирования гена 16S рРНК , проанализированные с помощью GenBank в сочетании с другими общедоступными общедоступными базами данных в Интернете, такими как EzTaxon -e ( https: // web.archive.org/web/20130928154318/http://eztaxon-e.ezbiocloud.net/ ) и BIBI ( https://web.archive.org/web/20151001000357/http://pbil.univ-lyon1 .fr / bibi / ) базы данных. Результаты показали, что анализы, выполненные с использованием GenBank в сочетании с EzTaxon -e (каппа = 0,79), были более разборчивыми, чем с использованием только GenBank (каппа = 0,66) или других баз данных.
См. Также [ править ]
- Ансамбль
- Справочная база данных белков человека (HPRD)
- Анализ последовательности
- UniProt
- Список секвенированных эукариотических геномов
- Список секвенированных геномов архей
- RefSeq - база данных эталонных последовательностей
- Geneious - включает инструмент отправки GenBank
- Данные открытой науки
Ссылки [ править ]
- ^ На странице загрузки в UCSC говорится: « NCBI не накладывает ограничений на использование или распространение данных GenBank. Однако некоторые отправители могут требовать патент , авторское право или другие права интеллектуальной собственности на все или часть предоставленных данных. NCBI не в состоянии оценить обоснованность таких утверждений и, следовательно, не может предоставить комментарии или неограниченное разрешение относительно использования, копирования или распространения информации, содержащейся в GenBank ».
- ^ Бенсон Д; Karsch-Mizrachi, I .; Липман, диджей; Ostell, J .; Уиллер, DL; и другие. (2008). «ГенБанк» . Исследования нуклеиновых кислот . 36 (База данных): D25 – D30. DOI : 10.1093 / NAR / gkm929 . PMC 2238942 . PMID 18073190 .
- ^ Бенсон Д; Karsch-Mizrachi, I .; Липман, диджей; Ostell, J .; Сэйерс, EW; и другие. (2009). «ГенБанк» . Исследования нуклеиновых кислот . 37 (База данных): D26 – D31. DOI : 10.1093 / NAR / gkn723 . PMC 2686462 . PMID 18940867 .
- ^ a b c «Примечания к выпуску GenBank» . NCBI.
- ^ Хэнсон, Тодд (2000-11-21). «Умер Уолтер Гоуд, основатель GenBank» . Информационный бюллетень: некролог . Лос-Аламосская национальная лаборатория.
- ^ История LANL GenBank
- Перейти ↑ Benton D (1990). «Последние изменения в онлайн-сервисе GenBank» . Исследования нуклеиновых кислот . 18 (6): 1517–1520. DOI : 10.1093 / NAR / 18.6.1517 . PMC 330520 . PMID 2326192 .
- ^ Бенсон, DA; Cavanaugh, M .; Кларк, К .; Karsch-Mizrachi, I .; Липман, диджей; Ostell, J .; Сейерс, EW (2012). «ГенБанк» . Исследования нуклеиновых кислот . 41 (выпуск базы данных): D36 – D42. DOI : 10.1093 / NAR / gks1195 . PMC 3531190 . PMID 23193287 .
- ↑ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW (январь 2011 г.). «ГенБанк» . Nucleic Acids Res . 39 (выпуск базы данных): D32–37. DOI : 10.1093 / NAR / gkq1079 . PMC 3013681 . PMID 21071399 .
- ↑ Kyung Sun Parka, Chang-Seok Kia, Cheol-In Kangb, Yae-Jean Kimc, Doo Ryeon Chungb, Kyong Ran Peckb, Jae-Hoon Songb и Nam Yong Lee (май 2012). «Оценка услуг GenBank, EzTaxon и BIBI для молекулярной идентификации изолятов клинических культур крови, которые не были идентифицированы или были неправильно идентифицированы обычными методами» . J. Clin. Microbiol . 50 (5): 1792–1795. DOI : 10.1128 / JCM.00081-12 . PMC 3347139 . PMID 22403421 . CS1 maint: uses authors parameter (link)
- Эта статья включает материалы, являющиеся общественным достоянием, из документа Национального центра биотехнологической информации : «Справочник NCBI» .
Внешние ссылки [ править ]
- ГенБанк
- Пример записи последовательности для гемоглобина бета
- BankIt
- Sequin - автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательностей GenBank.
- EMBOSS - бесплатное программное обеспечение с открытым исходным кодом для молекулярной биологии
- GenBank, RefSeq, TPA и UniProt: что в названии?