Европейский институт биоинформатики


Европейский институт биоинформатики ( EMBL-EBI ) — межправительственная организация (IGO), которая, как часть Европейской лаборатории молекулярной биологии (EMBL), занимается исследованиями и услугами в области биоинформатики . Он расположен на территории кампуса Wellcome Genome в Хинкстоне , недалеко от Кембриджа , и в нем работает более 600 сотрудников , работающих полный рабочий день (FTE). [3] Такие лидеры института, как Рольф Апвейлер , Алекс Бейтман , Юэн Бирни.и Гай Кокрейн, советник Научно-консультативного совета Национального центра геномных данных, входят в международную исследовательскую сеть BIG Data Center при Пекинском институте геномики . [4]

Кроме того, EMBL-EBI проводит учебные программы, которые обучают ученых основам работы с биологическими данными и продвигают множество биоинформатических инструментов, доступных для их исследований, как на основе EMBL-EBI, так и не на основе EMBL-EBI.

Одна из ролей EMBL-EBI заключается в индексировании и сохранении биологических данных в ряде баз данных, включая Ensembl (хранит данные о последовательностях всего генома), UniProt (база данных последовательностей белков и аннотаций) и Protein Data Bank (третичные данные о белках и нуклеиновых кислотах). структура базы данных). Предоставляются различные онлайн-сервисы и инструменты, такие как инструмент поиска базового локального выравнивания (BLAST) или инструмент выравнивания последовательностей Clustal Omega, позволяющий осуществлять дальнейший анализ данных.

BLAST [5] — алгоритм сравнения первичной структуры биомакромолекулы, чаще всего нуклеотидной последовательности ДНК/РНК и аминокислотной последовательности белков, хранящихся в биоинформационных базах данных, с запрашиваемой последовательностью. Алгоритм использует оценку доступных последовательностей по запросу с помощью матрицы оценок , такой как BLOSUM 62 . Последовательности с наивысшей оценкой представляют собой ближайших родственников запроса с точки зрения функционального и эволюционного сходства. [6]

Поиск в базе данных с помощью BLAST требует, чтобы входные данные были в правильном формате (например, в формате FASTA , GenBank, PIR или EMBL). Пользователи также могут указать конкретные базы данных для поиска, выбрать используемые оценочные матрицы и другие параметры перед запуском инструмента. Лучшие совпадения в результатах BLAST упорядочены в соответствии с их рассчитанным значением E (вероятность случайного присутствия в базе данных совпадения с аналогичным или более высоким рейтингом). [7]

Clustal Omega [8] — это инструмент множественного выравнивания последовательностей (MSA), который позволяет найти оптимальное выравнивание минимум трех и максимум 4000 входных последовательностей ДНК и белков. [9] Алгоритм Clustal Omega использует две профильные модели скрытой Маркова (HMM) для окончательного выравнивания последовательностей. Выходные данные Clustal Omega можно визуализировать в виде направляющего дерева (филогенетические отношения последовательностей наилучшего спаривания) или упорядочить по взаимному сходству последовательностей между запросами. [10] Основным преимуществом Clustal Omega перед другими инструментами MSA (Muscle, ProbCons ) является его эффективность при сохранении значительной точности результатов.