Это хорошая статья. Для получения дополнительной информации нажмите здесь.
Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Европейский нуклеотидная архив ( ЕСА ) представляет собой хранилище обеспечивает свободный и неограниченный доступ к аннотированных последовательностей ДНК и РНК . Он также хранит дополнительную информацию, такую ​​как экспериментальные процедуры, детали сборки последовательности и другие метаданные, относящиеся к проектам секвенирования . [1] Архив состоит из трех основных баз данных: архива считывания последовательностей, архива трассировки и базы данных нуклеотидных последовательностей EMBL (также известной как банк EMBL). [2] ENA производится и поддерживается Европейским институтом биоинформатики и является членомМеждународное сотрудничество с базами данных нуклеотидных последовательностей (INSDC) вместе с Банком данных ДНК Японии и GenBank .

ENA выросла из библиотеки данных EMBL, которая была выпущена в 1982 году как первый международно поддерживаемый ресурс для данных нуклеотидных последовательностей. [3] По состоянию на начало 2012 года каждая база данных ENA и других членов INSDC содержала полные геномы 5682 организмов и данные о последовательностях почти 700000. [4] Более того, объем данных растет экспоненциально, время удвоения составляет примерно 10 месяцев. [5]

История [ править ]

Европейский архив нуклеотидов возник из отдельных баз данных, самой ранней из которых была Библиотека данных EMBL, созданная в октябре 1980 года в Европейской лаборатории молекулярной биологии (EMBL), Гейдельберг . [3] Первый выпуск этой базы данных был выпущен в апреле 1982 года и содержал в общей сложности 568 отдельных записей, содержащих около 500 000 пар оснований . [6] В 1984 году, ссылаясь на Библиотеку данных EMBL, Нил и Кеннард отметили, что «несколько лет назад было ясно, что большая компьютеризированная база данных последовательностей будет иметь важное значение для исследований в области молекулярной биологии». [6]

Данные нуклеотидных последовательностей в виде книги.

Несмотря на то, что в то время основным методом распространения была магнитная лента , к 1987 году библиотека данных EMBL использовалась примерно 10 000 ученых по всему миру. [7] В том же году был представлен файловый сервер EMBL для обслуживания записей базы данных через BITNET , EARN и ранний Интернет . [8] В мае 1988 года журнал Nucleic Acids Research ввел политику, гласящую, что «рукописи, представленные в [Nucleic Acids Research] и содержащие или обсуждающие данные о последовательностях, должны сопровождаться доказательствами того, что данные были депонированы в библиотеке данных EMBL». [9]

EBI в Геномном кампусе Wellcome Trust в Хинкстоне , Великобритания, в котором находится Европейский архив нуклеотидов.

В течение 1990-х годов библиотека данных EMBL была переименована в базу данных нуклеотидных последовательностей EMBL [10] и была официально переведена в Европейский институт биоинформатики (EBI) из Гейдельберга. [11] В 2003 году база данных нуклеотидных последовательностей была расширена за счет добавления архива версий последовательностей (SVA), который поддерживает записи всех текущих и предыдущих записей в базе данных. [1] Год спустя, в июне 2004 г., ограничения на максимальную длину последовательности для каждой записи (тогда 350 килобаз ) были сняты, что позволило хранить последовательности целого генома как одну запись в базе данных . [12]

После внедрения секвенирования по Сэнгеру Институт Сэнгера Wellcome Trust (тогда известный как Центр Сэнгера) начал каталогизацию считываний последовательностей вместе с информацией о качестве в базе данных под названием The Trace Archive. [13] Архив трассировки существенно вырос с коммерциализацией высокопроизводительных технологий параллельного секвенирования такими компаниями, как Roche и Illumina . [14] В 2008 году EBI объединила архив трассировки, базу данных нуклеотидных последовательностей EMBL (теперь также известную как EMBL-Bank) [2] и недавно разработанный архив последовательностей (или коротких) считываний (SRA) для создания ENA, нацеленного на при предоставлении исчерпывающего нуклеотидаархив последовательности. [13] Как член Международного сотрудничества по базам данных нуклеотидных последовательностей , ENA ежедневно обменивается данными с Банком данных ДНК Японии и GenBank . [15]

База данных нуклеотидных последовательностей EMBL [ править ]

База данных нуклеотидных последовательностей EMBL (EMBL-Bank) увеличилась в размере с примерно 600 записей в 1982 г. до более 2,5 × 10 8 к декабрю 2012 г. [16]

База данных нуклеотидных последовательностей EMBL (также известная как EMBL-Bank) - это раздел ENA, который содержит детали сборки генома высокого уровня , а также собранные последовательности и их функциональную аннотацию . [12] [17] EMBL-Bank способствует прямому представлению геномных консорциумов и небольших исследовательских групп, а также извлечению данных о последовательностях, связанных с патентными заявками . [2] [18]

По состоянию на выпуск 114 (декабрь 2012 г.) база данных нуклеотидных последовательностей EMBL содержит приблизительно 5 × 10 11 нуклеотидов с несжатым размером файла 1,6 терабайта . [16]

Классы данных [ править ]

База данных нуклеотидных последовательностей EMBL поддерживает множество данных, полученных из разных источников, включая, помимо прочего: [19]

  • Выраженные теги последовательности с соответствующими данными выборки.
  • Нуклеотидная последовательность генерируется из проектов секвенирования всего генома на различных стадиях сборки, включая полные контиги и аннотированные, полностью собранные последовательности.
  • Данные, относящиеся к транскриптомике , такие как комплементарная ДНК , с необязательной аннотацией.
  • Новые или расширенные аннотации существующих кодирующих последовательностей , например, новые версии последовательностей с исправленными стартовыми или стоп-кодонами .

Формат EMBL-Bank [ править ]

База данных EMBL нуклеотидной последовательности использует плоский файл открытого текста формата для представления и хранения данных , которые , как правило , упоминается как формат EMBL-Bank. [20] Формат EMBL-Bank использует синтаксис, отличный от синтаксиса записей в DDBJ и GenBank, хотя каждый формат использует определенную стандартизированную номенклатуру, например, таксономии, как это определено в базе данных NCBI Taxon. Каждая строка файла формата EMBL содержит двухбуквенный код, например, ACдля обозначения регистрационного номера и KWсписка ключевых слов, относящихся к записи; каждая запись заканчивается на //. [20]

Архив чтения последовательности [ править ]

SRA быстро растет с 2008 года. [21] По состоянию на 2011 год, большинство данных о последовательностях SRA было получено с помощью анализатора генома Illumina . [22]

ENA управляет экземпляром архива чтения последовательностей (SRA), архивным хранилищем считываний и анализов последовательностей, которые предназначены для публичного выпуска. [23] Первоначально называвшийся «Архив коротких чтений», название было изменено в ожидании того, что будущие технологии секвенирования смогут производить более длинные считывания последовательностей. [24] В настоящее время в архиве принимаются считывания последовательностей, сгенерированные платформами секвенирования следующего поколения, такими как анализатор генома Illumina и ABI SOLiD, а также некоторые соответствующие анализы и сопоставления . [25] SRA работает под руководством Международного сотрудничества баз данных нуклеотидных последовательностей (INSDC) [23]и является самым быстрорастущим репозиторием в ENA. [14]

В 2010 г. Архив считывания последовательностей составлял примерно 95% данных о парах оснований, доступных через ENA [13], включая более 500000000000 считываний последовательностей, состоящих из более чем 60 триллионов (6 × 10 13 ) пар оснований. [23] Почти половина этих данных была депонирована в связи с проектом « 1000 геномов» [23], где исследователи публиковали свои данные о последовательностях в SRA в режиме реального времени . [26] Всего по состоянию на сентябрь 2010 г. 65% архива считывания последовательностей составляли геномные последовательности человека , а еще 16% относились к считываниям последовательностей метагенома человека . [23]

Предпочтительным форматом данных для файлов, представленных в SRA, является формат BAM, который позволяет хранить как выровненные, так и невыровненные чтения. [23] Внутри SRA полагается на NCBI SRA Toolkit, который используется во всех трех базах данных INSDC, чтобы обеспечить гибкое сжатие данных , доступ к API и преобразование в другие форматы, такие как FASTQ . [22]

Доступ к данным [ править ]

Снимок экрана веб-интерфейса браузера ENA , показывающий запись HTML.

К данным, содержащимся в ENA, можно получить доступ вручную или программно через URL-адрес REST через браузер ENA. Изначально ограниченный архивом чтения последовательности [14], браузер ENA теперь также предоставляет доступ к архиву трассировки и EMBL-Bank, что позволяет извлекать файлы в различных форматах, включая XML , HTML , FASTA и FASTQ. [13] Доступ к отдельным записям можно получить, используя их инвентарные номера, а другие текстовые запросы разрешены через поисковую систему EB-eye . [13] Кроме того, поиск на основе сходства последовательностей, реализованный с использованием графов Де Брейна.предлагают другой метод получения записей из ENA. [14]

ENA доступен через API-интерфейсы EBI SOAP и REST, которые также предлагают доступ к другим базам данных, размещенным в EBI, таким как Ensembl и InterPro . [27]

Хранилище [ править ]

Европейский нуклеотидный архив обрабатывает большие объемы данных, которые создают серьезные проблемы с хранением. [5] [28] По состоянию на 2012 год требования к хранилищу ENA продолжают экспоненциально расти , при этом время удвоения составляет примерно 10 месяцев. [5] Чтобы справиться с этим увеличением, ENA выборочно отбрасывает менее ценные данные платформы секвенирования и реализует передовые стратегии сжатия . [23] [29] Набор инструментов сжатия на основе справочников CRAM был разработан, чтобы помочь снизить требования к хранилищу ENA. [5] [30]

Финансирование [ править ]

В настоящее время ENA финансируется совместно Европейской лабораторией молекулярной биологии , Европейской комиссией и Wellcome Trust . [13] Развивающаяся структура ELIXIR, координируемая директором EBI Джанет Торнтон , направлена ​​на обеспечение устойчивой европейской инфраструктуры финансирования для поддержки постоянной доступности баз данных наук о жизни, таких как ENA. [29] [31] [32]

См. Также [ править ]

  • Банк данных ДНК Японии
  • КОДИРОВАТЬ
  • Ансамблевые геномы
  • GenBank
  • RefSeq
  • UniGene

Ссылки [ править ]

  1. ^ a b Cochrane, G .; Ахтар, Р .; Aldebert, P .; Althorpe, N .; Болдуин, А .; Bates, K .; Bhattacharyya, S .; Bonfield, J .; Бауэр, Л. (2007). «Приоритеты для сбора данных трассировки нуклеотидов, последовательностей и аннотаций в архиве трассировки Ensembl и базе данных нуклеотидных последовательностей EMBL» . Исследования нуклеиновых кислот . 36 (База данных): D5 – D12. DOI : 10.1093 / NAR / gkm1018 . ISSN 0305-1048 . PMC 2238915 . PMID 18039715 .   
  2. ^ а б в EMBL-EBI. «База данных нуклеотидных последовательностей EMBL» . Проверено 8 января 2013 .
  3. ^ а б Хэмм, GH; Кэмерон, GN (1986). «Библиотека данных EMBL» . Исследования нуклеиновых кислот . 14 (1): 5–9. DOI : 10.1093 / NAR / 14.1.5 . PMC 339348 . PMID 3945550 .  
  4. ^ Кокрейн, Гай; Кук, Чарльз Э; Бирни, Юэн (2012). «Будущее архивирования последовательностей ДНК» . GigaScience . 1 (1): 2. DOI : 10,1186 / 2047-217X-1-2 . ISSN 2047-217X . PMC 3617450 . PMID 23587147 .   
  5. ^ a b c d Cochrane, G .; Алако, Б .; Amid, C .; Bower, L .; Cerdeno-Tarraga, A .; Cleland, I .; Gibson, R .; Goodgame, N .; Джанг, М. (2012). «Перед ростом в Европейском архиве нуклеотидов» . Исследования нуклеиновых кислот . 41 (D1): D30 – D35. DOI : 10.1093 / NAR / gks1175 . ISSN 0305-1048 . PMC 3531187 . PMID 23203883 .   
  6. ^ a b Kneale, G .; Кеннард, О. (1984). «Библиотека данных нуклеотидных последовательностей EMBL». Сделки Биохимического Общества . 12 (6): 1011–1014. DOI : 10,1042 / bst0121011 . PMID 6530028 . 
  7. ^ Кэмерон, GN (1988). «Библиотека данных EMBL» . Исследования нуклеиновых кислот . 16 (5): 1865–1867. DOI : 10.1093 / NAR / 16.5.1865 . PMC 338182 . PMID 3353226 .  
  8. ^ Fuchs, R .; Stoehr, P .; Rice, P .; Omond, R .; Кэмерон, Г. (1990). «Новые услуги библиотеки данных EMBL» . Исследования нуклеиновых кислот . 18 (15): 4319–4323. DOI : 10.1093 / NAR / 18.15.4319 . PMC 331247 . PMID 2388823 .  
  9. ^ Kahn, P .; Хазледайн, Д. (1988). «Новое требование NAR к представлению данных в библиотеку данных EMBL: информация для авторов» . Исследования нуклеиновых кислот . 16 (10): I – IV. PMC 336623 . PMID 16617480 .  
  10. ^ "Что такое Европейский архив нуклеотидов?" . EMBL-EBI . Проверено 6 января 2013 .
  11. ^ Родригес-Томе, P .; Stoehr, PJ; Кэмерон, штат Джорджия; Флорес, Т.П. (1996). "Базы данных Европейского института биоинформатики (EBI)" . Исследования нуклеиновых кислот . 24 (1): 6–12. DOI : 10.1093 / NAR / 24.1.6 . PMC 145572 . PMID 8594602 .  
  12. ^ a b Stoesser, G .; Бейкер, Вт; Ван Ден Брук, А; Гарсия-Пастор, М. Kanz, C; Куликова, Т; Leinonen, R; Линь, Q; Ломбард, V (2003). «База данных нуклеотидных последовательностей EMBL: основные новые разработки» . Исследования нуклеиновых кислот . 31 (1): 17–22. DOI : 10.1093 / NAR / gkg021 . ISSN 1362-4962 . PMC 165468 . PMID 12519939 .   
  13. ^ Б с д е е LEINONEN R, R, Ахтар Birney E и др. (Январь 2011 г.). «Европейский архив нуклеотидов» . Nucleic Acids Res . 39 (выпуск базы данных): D28–31. DOI : 10.1093 / NAR / gkq967 . PMC 3013801 . PMID 20972220 .  
  14. ^ a b c d Leinonen, R .; Ахтар, Р .; Birney, E .; Bonfield, J .; Bower, L .; Corbett, M ​​.; Cheng, Y .; Демиральп, Ф .; Фарук, Н. (2009). «Улучшение услуг в Европейском архиве нуклеотидов» . Исследования нуклеиновых кислот . 38 (База данных): D39 – D45. DOI : 10.1093 / NAR / gkp998 . ISSN 0305-1048 . PMC 2808951 . PMID 19906712 .   
  15. ^ EMBL-EBI. «О Европейском архиве нуклеотидов» . Проверено 7 января 2013 .
  16. ^ a b «База данных нуклеотидных последовательностей EMBL: примечания к выпуску» . Примечания к выпуску EMBL-Bank 114 . EMBL-EBI. Декабрь 2012. Архивировано из оригинала на 2013-01-02 . Проверено 7 января 2013 .
  17. ^ Амид, C .; Birney, E .; Bower, L .; Cerdeno-Tarraga, A .; Cheng, Y .; Cleland, I .; Faruque, N .; Gibson, R .; Гудгейм, Н. (2011). «Основные разработки инструмента представления в европейском нуклеотидном архиве» . Исследования нуклеиновых кислот . 40 (D1): D43 – D47. DOI : 10.1093 / NAR / gkr946 . ISSN 0305-1048 . PMC 3245037 . PMID 22080548 .   
  18. ^ Stoesser, G .; Бейкер, Вт; Ван Ден Брук, А; Camon, E; Гарсия-Пастор, М. Kanz, C; Куликова, Т; Leinonen, R; Линь, Q (2002). «База данных нуклеотидных последовательностей EMBL» . Исследования нуклеиновых кислот . 30 (1): 21–26. DOI : 10.1093 / NAR / 30.1.21 . ISSN 1362-4962 . PMC 99098 . PMID 11752244 .   
  19. ^ "Классы данных EMBL-Bank" . EBML-EBI. 2012 . Проверено 8 января 2013 .
  20. ^ a b «Руководство пользователя EMBL-Bank (версия 129)» (открытый текст) . EMBL-EBI. Сентябрь 2016 . Проверено 3 ноября 2016 .
  21. ^ «Обзор NCBI SRA» . NCBI. 1 января 2013 г. Архивировано из оригинала 8 февраля 2013 года . Проверено 8 января 2013 .
  22. ^ a b Kodama, Y .; Shumway, M .; Лейнонен, Р. (2011). «Архив чтения последовательности: взрывной рост данных секвенирования» . Исследования нуклеиновых кислот . 40 (D1): D54 – D56. DOI : 10.1093 / NAR / gkr854 . ISSN 0305-1048 . PMC 3245110 . PMID 22009675 .   
  23. ^ Б с д е е г LEINONEN R, Сугавары H, Shumway M (январь 2011). «Последовательность чтения архива» . Nucleic Acids Res . 39 (выпуск базы данных): D19–21. DOI : 10.1093 / NAR / gkq1019 . PMC 3013647 . PMID 21062823 .  
  24. ^ Остелл, Джим (2009). «Архив чтения последовательности NCBI: основная поддерживающая инфраструктура» . Bio IT World . Проверено 8 января 2013 .
  25. ^ "О архиве чтения последовательности NCBI" . NCBI. 8 января 2013 г. Архивировано из оригинала 19 апреля 2013 года . Проверено 10 января 2013 .
  26. ^ Шамуэй, М .; Cochrane, G .; Сугавара, Х. (2009). «Архивирование данных секвенирования нового поколения» . Исследования нуклеиновых кислот . 38 (База данных): D870 – D871. DOI : 10.1093 / NAR / gkp1078 . ISSN 0305-1048 . PMC 2808927 . PMID 19965774 .   
  27. ^ Mcwilliam, H .; Валентин, Ф .; Goujon, M .; Li, W .; Narayanasamy, M .; Martin, J .; Мияр, Т .; Лопес, Р. (2009). «Веб-сервисы в Европейском институте биоинформатики-2009» . Исследования нуклеиновых кислот . 37 (веб-сервер): W6 – W10. DOI : 10.1093 / NAR / gkp302 . ISSN 0305-1048 . PMC 2703973 . PMID 19435877 .   
  28. ^ Cochrane, G .; Ахтар, Р .; Bonfield, J .; Bower, L .; Демиральп, Ф .; Faruque, N .; Gibson, R .; Hoad, G .; Хаббард, Т. (2009). «Инновации петабайтного масштаба в Европейском нуклеотидном архиве» . Исследования нуклеиновых кислот . 37 (База данных): D19 – D25. DOI : 10.1093 / NAR / gkn765 . ISSN 0305-1048 . PMC 2686451 . PMID 18978013 .   
  29. ^ a b «EMBL-EBI продолжит поддерживать архив чтения последовательностей для необработанных данных» (PDF) . Пресс-релиз . EMBL-EBI. 16 февраля 2011 г. Архивировано 15 мая 2011 г. из оригинального (PDF) . Проверено 7 января 2013 .
  30. ^ Си-Ян Фриц, М .; Leinonen, R .; Cochrane, G .; Бирни, Э. (2011). «Эффективное хранение данных высокопроизводительного секвенирования ДНК с использованием сжатия на основе ссылок» . Геномные исследования . 21 (5): 734–740. DOI : 10.1101 / gr.114819.110 . ISSN 1088-9051 . PMC 3083090 . PMID 21245279 .   
  31. ^ "Об ЭЛИКСИРЕ" . ЭЛИКСИР . Проверено 9 января 2013 .
  32. ^ Crosswell, Lindsey C .; Торнтон, Джанет М. (2012). «ЭЛИКСИР: распределенная инфраструктура европейских биологических данных». Тенденции в биотехнологии . 30 (5): 241–242. DOI : 10.1016 / j.tibtech.2012.02.002 . ISSN 0167-7799 . PMID 22417641 .  

Внешние ссылки [ править ]

  • Европейский архив нуклеотидов
  • База данных нуклеотидных последовательностей EMBL
  • Европейский архив нуклеотидов: Краткий обзор