Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Проект базы данных генома Ensembl - это научный проект Европейского института биоинформатики , который был запущен в 1999 году в ответ на неизбежное завершение проекта « Геном человека» . [2] Ensembl стремится предоставить централизованный ресурс для генетиков, молекулярных биологов и других исследователей, изучающих геномы наших собственных видов и других позвоночных и модельных организмов . [3] Ensembl - один из нескольких хорошо известных браузеров для поиска геномной информации.

Подобные базы данных и браузеры можно найти в NCBI и Калифорнийском университете в Санта-Круз (UCSC) .

Фон [ править ]

Геном человека состоит из трех миллиардов пар оснований , которые кодируют примерно 20 000–25 000 генов . Однако от одного только генома мало пользы, если не удается идентифицировать расположение и родство отдельных генов. Один из вариантов - ручное аннотирование , при котором группа ученых пытается найти гены, используя экспериментальные данные из научных журналов и общедоступных баз данных. Однако это медленная и кропотливая задача. Альтернативами, известные как автоматизированная аннотация, является использование мощности компьютеров , чтобы сделать сложный узор-сопоставление из белка с ДНК . [ необходима цитата ]

В проекте Ensembl данные о последовательностях вводятся в систему аннотации генов (набор программных «конвейеров», написанных на Perl ), которая создает набор предсказанных местоположений генов и сохраняет их в базе данных MySQL для последующего анализа и отображения. Ensembl делает эти данные свободно доступными для мирового исследовательского сообщества. Все данные и код, созданные в рамках проекта Ensembl, доступны для загрузки [4], а также имеется общедоступный сервер базы данных, обеспечивающий удаленный доступ. Кроме того, веб-сайт Ensembl предоставляет компьютерные визуальные дисплеи большей части данных.

Со временем в проект были включены дополнительные виды (в том числе ключевые модельные организмы, такие как мышь , плодовая муха и рыбка данио ), а также более широкий спектр геномных данных, включая генетические вариации и регуляторные особенности. С апреля 2009 года родственный проект Ensembl Genomes расширил сферу действия Ensembl на беспозвоночных многоклеточных , растений , грибов , бактерий и простейших , в то время как первоначальный проект по-прежнему сосредоточен на позвоночных.

Отображение геномных данных [ править ]

Ген SGCB совмещен с геномом человека

Центральным элементом концепции Ensembl является возможность автоматического создания графических представлений сопоставления генов и других геномных данных с эталонным геномом . Они отображаются в виде дорожек данных, а отдельные дорожки можно включать и выключать, что позволяет пользователю настроить отображение в соответствии со своими исследовательскими интересами. Интерфейс также позволяет пользователю увеличивать масштаб области или перемещаться по геному в любом направлении.

Другие дисплеи показывают данные с разным уровнем разрешения, от полных кариотипов до текстовых представлений ДНК и аминокислотных последовательностей, или представляют другие типы дисплеев, такие как деревья схожих генов ( гомологов ) для разных видов. Графика дополняется табличными представлениями, и во многих случаях данные можно экспортировать прямо со страницы в различные стандартные форматы файлов, такие как FASTA .

Данные, полученные извне, также можно добавить на дисплей, загрузив подходящий файл в одном из поддерживаемых форматов, например BAM , BED или PSL .

Графика генерируется с использованием набора специализированных модулей Perl на основе GD , стандартной библиотеки графического отображения Perl.

Альтернативные методы доступа [ править ]

В дополнение к своему веб-сайту Ensembl предоставляет REST API и Perl API [5] (интерфейс прикладного программирования), которые моделируют биологические объекты, такие как гены и белки, что позволяет писать простые сценарии для извлечения интересующих данных. Тот же API используется внутри веб-интерфейса для отображения данных. Он разделен на такие разделы, как основной API, API сравнения (для сравнительных данных геномики), API вариаций (для доступа к SNP, SNV, CNV ...) и API функциональной геномики (для доступа к нормативным данным). Веб-сайт Ensembl предоставляет обширную информацию о том, как установить и использовать API .

Это программное обеспечение можно использовать для доступа к общедоступной базе данных MySQL , избегая необходимости загружать огромные наборы данных. Пользователи могут даже выбрать получение данных из MySQL с помощью прямых SQL-запросов, но для этого требуются обширные знания текущей схемы базы данных.

Большие наборы данных можно получить с помощью инструмента интеллектуального анализа данных BioMart . Он предоставляет веб-интерфейс для загрузки наборов данных с использованием сложных запросов.

Наконец, есть FTP- сервер, который можно использовать для загрузки целых баз данных MySQL, а также некоторых выбранных наборов данных в других форматах.

Текущие виды [ править ]

Аннотированные геномы включают наиболее полно секвенированных позвоночных и избранных модельных организмов. Все они эукариоты, прокариот нет. По состоянию на 2008 год это включает:

  • Хордовые
    • Млекопитающие
      • Euarchontoglires
        • Приматы : бушбэби , шимпанзе , человек, макака , мышиный лемур , орангутанг , долгопят ;
        • Scandentia : землеройка  ;
        • Glires (= грызуны + зайцеобразные): морская свинка , кенгуровая крыса , мышь , крыса , суслик , пищуха , кролик  ;
      • Лавразиатерия : корова , дельфин , альпака , свинья , кошка , собака , лошадь , мегабат , микробат , ёжик , землеройка  ;
      • Афротерия: слон , даман , тенрек
      • Ксенартра : броненосец , ленивец  ;
      • Marsupialia : опоссум , валлаби  ;
      • Односторонние : утконос ;
    • Птицы : курица , зебра вьюрка ;
    • Лепидозаврия : анолевая ящерица (пред);
    • Лиссамфибия : Xenopus tropicalis ;
    • Костистые рыбы: Takifugu rubripes ( фугу ), Tetraodon nigroviridis (зеленая пятнистая рыба- фугу ), Danio rerio ( рыба данио ), Oryzias latipes ( медака ), Gasterosteus aculeatus ( колюшка );
    • Cyclostomata : Petromyzon marinus ( морская минога ) (пред);
    • Оболочки : Ciona Кишечник , Ciona savignyi ;
  • Беспозвоночные
    • Насекомые : Drosophila melanogaster (плодовая муха), Anopheles gambiae (комар), Aedes aegypti (комар).
    • Червь : Caenorhabditis elegans
  • Дрожжи : Saccharomyces cerevisiae (пекарские дрожжи)

См. Также [ править ]

  • Список секвенированных эукариотических геномов
  • Анализ последовательности
  • Инструмент профилирования последовательности
  • Мотив последовательности
  • Браузер генома UCSC

Ссылки [ править ]

  1. ^ Йетс AD; и другие. (Январь 2020 г.). «Ансамбль 2020» . Nucleic Acids Res . 48 (D1): D682 – D688. DOI : 10.1093 / NAR / gkz966 . PMC  7145704 . PMID  31691826 . Проверено 31 июля 2020 года .
  2. ^ Flicek P, Amode MR, Barrell D, et al. (Ноябрь 2010 г.). «Ансамбль 2011» . Nucleic Acids Res . 39 (проблема с базой данных): D800 – D806. DOI : 10.1093 / NAR / gkq1064 . PMC 3013672 . PMID 21045057 .  
  3. ^ Flicek Р, Акен Б.Л., Баллестер В, и др. (Январь 2010 г.). «10 лет Ансамблю» . Nucleic Acids Res . 38 (выпуск базы данных): D557–62. DOI : 10.1093 / NAR / gkp972 . PMC 2808936 . PMID 19906699 .  
  4. ^ Руффье, Магали; Кяхари, Андреас; Коморовская, Моника; Кинан, Стивен; Лэрд, Мэтью; Лонгден, Ян; Проктор, Гленн; Сирл, Стив; Стейнс, Дэниел; Тейлор, Кирон; Вулло, Алессандро; Йетс, Эндрю; Зербино, Даниил; Фличек, Пол (январь 2017 г.). «Основные программные ресурсы Ensembl: хранение и программный доступ к последовательности ДНК и аннотации генома» . База данных . 2017 (1): bax020. DOI : 10,1093 / базы данных / bax020 . PMC 5467575 . PMID 28365736 .  
  5. ^ Stabenau А, McVicker G, Melsopp С, G Проктер, зажим М, Birney Е (февраль 2004 г.). «Базовые библиотеки программного обеспечения Ensembl» . Геномные исследования . 14 (5): 929–933. DOI : 10.1101 / gr.1857204 . PMC 479122 . PMID 15123588 .  

Внешние ссылки [ править ]

  • Официальный веб-сайт
  • Вега
  • Pre-Ensembl
  • Ансамблевые геномы
  • Браузер генома UCSC
  • NCBI
  • Ensembl: Просмотр геномов хордовых на EBI Train OnLine