Стокгольмский формат - это формат множественного выравнивания последовательностей , используемый Pfam и Rfam для распространения сравнений последовательностей белков и РНК. [1] [2] ориентирующие редактора Ralee , [3] Belvu и Jalview поддержка формат Стокгольм как и вероятностных инструменты поиска базы данных , Infernal и HMMER , а филогенетический инструмент анализа Xrate . Файлы в формате Stockholm часто имеют расширение имени файла .sto
или .stk
. [4]
Расширения имени файла | .sto , .stk |
---|---|
Тип интернет-СМИ | text/x-stockholm-alignment |
Разработано | Эрик Зоннхаммерс |
Тип формата | Биоинформатика |
Открытый формат ? | да |
Веб-сайт | sonnhammer |
Синтаксис
Правильно сформированный стокгольмский файл всегда содержит заголовок, в котором указывается текущий формат и идентификатор версии ' # STOCKHOLM 1.0
'. Затем за заголовком следует несколько строк, представляющих собой смесь разметки (начиная с # ) и последовательности. Наконец, линия « //
» указывает на конец выравнивания.
Пример без разметки выглядит так:
# СТОКГОЛЬМ 1.0# = ПРИМЕР ИДЕНТИФИКАТОРА GF<выровненная последовательность> <выровненная последовательность> <выровненная последовательность> //
Последовательности записываются по одной в строке. Сначала записывается имя последовательности, а после любого количества пробелов записывается последовательность. Имена последовательностей обычно имеют форму «имя / начало-конец» или просто «имя». Буквы последовательности могут включать любые символы, кроме пробелов. Пробелы могут быть обозначены " . " или же " - ".
Строки наценки начинаются с # . «Параметры» разделяются пробелом, поэтому для разметки, состоящей из 1 символа на столбец, вместо пробела следует использовать подчеркивание («_»). Определенные типы наценки включают:
# = GF <функция> <Общая аннотация для каждого файла, свободный текст># = GC <функция> <Общая аннотация для каждого столбца, ровно 1 символ на столбец># = GS# = GR <Общая аннотация для каждой последовательности, свободный текст> <Общая аннотация для каждого остатка, ровно 1 символ на остаток>
Рекомендуемые функции
Эти имена функций используются Pfam и Rfam для определенных типов аннотаций. (См. Документацию Pfam и Rfam в разделе «Описание полей»)
# = GF
Pfam и Rfam могут использовать следующие теги:
Обязательные поля: ------------------ Регистрационный номер AC: Регистрационный номер в форме PFxxxxx (Pfam) или RFxxxxx (Rfam). Идентификационный номер: одно слово для обозначения семьи. DE Определение: Краткое описание семьи. AU Автор: Авторы статьи. SE Источник семян: источник, предполагающий, что члены семян принадлежат к одной семье. SS Источник структуры: источник (прогноз или публикация) согласованной вторичной структуры РНК, используемый Rfam. BM Build method: Командная строка, используемая для создания модели Метод поиска SM: командная строка, используемая для выполнения поиска GA Gathering threshold: Порог поиска для построения полного выравнивания. TC Trusted Cutoff: наименьшая оценка последовательности (и оценка домена для Pfam) совпадения при полном выравнивании. NC Noise Cutoff: Наивысшая оценка последовательности (и оценка домена для Pfam) совпадения не при полном выравнивании. Тип TP: Тип семейства - в настоящее время Семья, Домен, Мотив или Повторение для Pfam. - дерево с корнями Gene, Intron или Cis-reg для Rfam. Последовательность SQ: количество последовательностей в выравнивании. Необязательные поля: ---------------- Комментарий к базе данных DC: Комментарий к ссылке на базу данных. Ссылка на базу данных DR: Ссылка на внешнюю базу данных. Ссылка RC Комментарий: комментарий о ссылке на литературу. Справочный номер РН: Справочный номер. Справочная медлайн RM: восьмизначный номер медлайн медлайн. Заголовок справки RT: Заголовок справки. Автор справочной информации РА: Автор справочной информации Расположение справки RL: Местоположение журнала. PI Предыдущий идентификатор: запись всех предыдущих строк идентификатора. KW Ключевые слова: Ключевые слова. Комментарий CC: Комментарии. Присоединение NE Pfam: указывает на вложенный домен. NL Location: Расположение вложенных доменов - идентификатор последовательности, начало и конец вставки. WK Ссылка на Википедию: страница Википедии CL Clan: присоединение к клану Членство в МБ: используется для перечисления членства в клане. Для встраивания деревьев: ---------------- NH New Hampshire Дерево в расширенном формате New Hampshire. TN Tree ID Уникальный идентификатор следующего дерева. Другой: ------ Частота ложного обнаружения FR: метод, используемый для установки порогового значения битовой оценки на основе отношения от ожидаемых ложных срабатываний до истинных срабатываний. Число с плавающей запятой от 0 до 1. CB Calibration method: Командная строка, используемая для калибровки модели (только Rfam, выпуск 12.0 и новее)
- Примечания: дерево может храниться в нескольких строках # = GF NH.
- Если несколько деревьев хранятся в одном файле, каждому дереву должна предшествовать строка # = GF TN с уникальным идентификатором дерева. Если включено только одно дерево, строку # = GF TN можно не указывать.
# = GS
Rfam и Pfam могут использовать эти функции:
Описание функции --------------------- ----------- ACНомер доступа DEDEscription DR; <присоединение>; Ссылка на базу данных ОС <организм> Организм (вид) OCКлассификация организмов (клады и т. Д.) LO <взгляд> Взгляд (цвет и т. Д.)
# = GR
Функция Описание Буквы разметки ------- ----------- -------------- Вторичная структура SS для РНК [.,; <> () {} [] AaBb.-_] - поддерживает псевдоузел и дополнительную разметку структуры (см. Документацию WUSS) Для белка [HGIEBTSCX] Доступность SA Surface [0-9X] (0 = 0% -10%; ...; 9 = 90% -100%) Трансмембрана TM [Mio] Апостериорная вероятность PP [0-9 *] (0 = 0,00-0,05; 1 = 0,05-0,15; * = 0,95-1,00) Связывание LI LIgand [*] Как активный сайт [*] pAS AS - прогноз Pfam [*] sAS AS - от SwissProt [*] IN INtron (в или после) [0-2] Для третичных взаимодействий РНК: ------------------------------ tWW WC / WC в транс Для базовых пар: [<> AaBb ... Zz] Для непарных: [.] cWH WC / Hoogsteen в СНГ cWS WC / SugarEdge в снг TWS WC / SugarEdge в транс примечания: (1) {c, t} {W, H, S} {W, H, S} для общего формата. (2) cWW эквивалентно SS.
# = GC
Список допустимых функций включает в себя те, которые показаны ниже, а также те же функции, что и для # = GR с добавлением «_cons», что означает «консенсус». Пример: «SS_cons».
Функция Описание Описание ------- ----------- -------------- Аннотация RF ReFerence Часто в качестве ссылки используется консенсусная последовательность РНК или белка. Любой символ без пробела (например, x) может указывать на согласованные / сохраненные / совпадающие столбцы. . или-указывают на вставку столбцов ~ указывают на невыровненные вставки Верхний и нижний регистр могут использоваться для различения сильной и слабой сохраняемости. остатки соответственно MM Model Mask Указывает, какие столбцы в трассе следует замаскировать, например что вероятности излучения для состояний совпадения, соответствующих эти столбцы будут фоновым распределением.
Заметки
- Не используйте несколько строк с одинаковой меткой # = GC.
- Для одной последовательности не используйте несколько строк с одинаковой меткой # = GR. Для каждой последовательности можно назначить только одно уникальное назначение.
- «X» в SA и SS означает «остаток с неизвестной структурой».
- Буквы SS взяты из DSSP : H = альфа-спираль, G = 3/10-спираль, I = p-спираль, E = удлиненная цепь, B = остаток в изолированном b-мостике, T = поворот, S = изгиб. , C = катушка / петля.)
- Буквы РНК SS взяты из обозначения WUSS (вторичная структура Вашингтонского университета). Соответствующие вложенные круглые скобки символы <>, (), [] или {} указывают базовую пару. Символы '.', ',' И ';' указать непарные регионы. Соответствующие символы верхнего и нижнего регистра английского алфавита указывают на взаимодействия псевдоузлов . 5'-нуклеотид в узле должен быть в верхнем регистре, а 3'-нуклеотид в нижнем регистре.
Рекомендуемые места размещения
- # = GF Выше выравнивания
- # = GC Ниже выравнивания
- # = GS Выше выравнивания или чуть ниже соответствующей последовательности
- # = GR Чуть ниже соответствующей последовательности
Ограничения по размеру
Для любого поля нет явных ограничений по размеру. Однако простой синтаксический анализатор, использующий фиксированные размеры полей, должен безопасно работать при выравнивании Pfam и Rfam с этими ограничениями:
- Длина строки: 10000.
- <имя>: 255.
- <функция>: 255.
Примеры
Ниже показан простой пример выравнивания Rfam ( UPSK RNA ) с псевдоузлом в Стокгольмском формате: [5]
# СТОКГОЛЬМ 1.0# = GF ID UPSK# = GF SE прогнозируемый; Адский# = Опубликован GF SS; PMID 9223489# = GF RN [1]# = GF RM 9223489# = GF RT Роль псевдоузла на 3 'конце желтой мозаики репы# = РНК вируса ОТ GF в минус-цепевом синтезе вирусной РНК-зависимой РНК# = Полимераза GF RT.# = Г.Ф. Р. А. Дейман Б. А., Кортлевер Р. М., Плей К. В.;# = GF RL J Virol 1997; 71: 5990-5996.AF035635.1 / 619-641 UGAGUUCUCGAUCUCUAAAAUCGM24804.1 / 82-104 UGAGUUCUCUAUCUCUAAAAUCGJ04373.1 / 6212-6234 UAAGUUCUCGAUCUUUAAAAUCGM24803.1 / 1-23 UAAGUUCUCGAUCUCUAAAAUCG# = GC SS_cons .AAA .... <<<< aaa .... >>>>//
Вот немного более сложный пример, показывающий домен Pfam CBS :
# СТОКГОЛЬМ 1.0# = GF ID CBS# = GF AC PF00571# = GF DE CBS домен# = GF AU Бейтман А# = GF CC Домены CBS - это небольшие внутриклеточные модули, которые чаще всего встречаются# = GF CC в 2 или четырех копиях в белке.# = GF SQ 5# = GS O31698 / 18-71 AC O31698# = GS O83071 / 192-246 AC O83071# = GS O83071 / 259-312 AC O83071# = GS O31698 / 88-139 AC O31698# = GS O31698 / 88-139 OS Bacillus subtilisO83071 / 192-246 MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS# = GR O83071 / 192-246 SA 9998877564535242525515252536463774777O83071 / 259-312 MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY# = GR O83071 / 259-312 SSCCCCCHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEEO31698 / 18-71 MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS# = GR O31698 / 18-71 СС CCCHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHHO31698 / 88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE# = GR O31698 / 88-139 СС ССС СССЧЧХХХХХХХХХХЕЕЕЕЕЕЕЕЕЕЕЕЕЕ# = GC SS_cons CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEHO31699 / 88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE# = GR O31699 / 88-139 AS ________________ * ____________________# = GR O31699 / 88-139 IN ____________1____________2______0____//
Смотрите также
Рекомендации
- ^ Гарднер П.П., Дауб Дж., Тейт Дж. Г. и др. (Январь 2009 г.). «Rfam: обновления базы данных семейств РНК» . Nucleic Acids Res . 37 (Выпуск базы данных): D136–40. DOI : 10.1093 / NAR / gkn766 . PMC 2686503 . PMID 18953034 .
- ^ Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Х.Р. Хотц, Церик Дж., Форслунд К., Эдди С.Р., Зоннхаммер Е.Л., Бейтман А. (2008). «База данных семейств белков Pfam» . Nucleic Acids Res . 36 (выпуск базы данных): D281–8. DOI : 10.1093 / NAR / gkm960 . PMC 2238907 . PMID 18039703 .
- ^ Гриффитс-Джонс С (январь 2005 г.). "RALEE - редактор выравнивания РНК в Emacs" . Биоинформатика . 21 (2): 257–9. DOI : 10.1093 / биоинформатики / bth489 . PMID 15377506 .
- ^ «Формат файлов выравнивания» . 22 мая 2019 . Проверено 22 мая 2019 .
- ^ Дейман Б.А., Кортлевер Р.М., Плейдж К.В. (август 1997 г.). «Роль псевдоузла на 3'-конце РНК вируса желтой мозаики репы в синтезе минус-цепи вирусной РНК-зависимой РНК-полимеразой» . J. Virol . 71 (8): 5990–6. DOI : 10,1128 / JVI.71.8.5990-5996.1997 . PMC 191855 . PMID 9223489 .
Внешние ссылки
- Определение стокгольмского формата Эриком Зоннхаммерсом