Стокгольмский формат

Стокгольмский формат - это формат множественного выравнивания последовательностей , используемый Pfam и Rfam для распространения сравнений последовательностей белков и РНК. ^[1]^[2] ориентирующие редактора Ralee , ^[3] Belvu и Jalview поддержка формат Стокгольм как и вероятностных инструменты поиска базы данных , Infernal и HMMER , а филогенетический инструмент анализа Xrate . Файлы в формате Stockholm часто имеют расширение имени файла .sto или .stk. ^[4]

Стокгольмский формат
Расширения имени файла	`.sto`, `.stk`
Тип интернет-СМИ	`text/x-stockholm-alignment`
Разработано	Эрик Зоннхаммерс
Тип формата	Биоинформатика
Открытый формат ?	да
Веб-сайт	sonnhammer .sbc .su .se / Stockholm .html

Синтаксис

Правильно сформированный стокгольмский файл всегда содержит заголовок, в котором указывается текущий формат и идентификатор версии ' # STOCKHOLM 1.0'. Затем за заголовком следует несколько строк, представляющих собой смесь разметки (начиная с # ) и последовательности. Наконец, линия « //» указывает на конец выравнивания.

Пример без разметки выглядит так:

# СТОКГОЛЬМ 1.0# = ПРИМЕР ИДЕНТИФИКАТОРА GF <выровненная последовательность> <выровненная последовательность> <выровненная последовательность>//

Последовательности записываются по одной в строке. Сначала записывается имя последовательности, а после любого количества пробелов записывается последовательность. Имена последовательностей обычно имеют форму «имя / начало-конец» или просто «имя». Буквы последовательности могут включать любые символы, кроме пробелов. Пробелы могут быть обозначены " . " или же " - ".

Строки наценки начинаются с # . «Параметры» разделяются пробелом, поэтому для разметки, состоящей из 1 символа на столбец, вместо пробела следует использовать подчеркивание («_»). Определенные типы наценки включают:

# = GF <функция> <Общая аннотация для каждого файла, свободный текст># = GC <функция> <Общая аннотация для каждого столбца, ровно 1 символ на столбец># = GS   <Общая аннотация для каждой последовательности, свободный текст># = GR   <Общая аннотация для каждого остатка, ровно 1 символ на остаток>

Рекомендуемые функции

Эти имена функций используются Pfam и Rfam для определенных типов аннотаций. (См. Документацию Pfam и Rfam в разделе «Описание полей»)

# = GF

Pfam и Rfam могут использовать следующие теги:

Обязательные поля: ------------------ Регистрационный номер AC: Регистрационный номер в форме PFxxxxx (Pfam) или RFxxxxx (Rfam). Идентификационный номер: одно слово для обозначения семьи. DE Определение: Краткое описание семьи. AU Автор: Авторы статьи. SE Источник семян: источник, предполагающий, что члены семян принадлежат к одной семье. SS Источник структуры: источник (прогноз или публикация) согласованной вторичной структуры РНК, используемый Rfam. BM Build method: Командная строка, используемая для создания модели Метод поиска SM: командная строка, используемая для выполнения поиска GA Gathering threshold: Порог поиска для построения полного выравнивания. TC Trusted Cutoff: наименьшая оценка последовательности (и оценка домена для Pfam) совпадения при полном выравнивании. NC Noise Cutoff: Наивысшая оценка последовательности (и оценка домена для Pfam) совпадения не при полном выравнивании. Тип TP: Тип семейства - в настоящее время Семья, Домен, Мотив или Повторение для Pfam. - дерево с корнями Gene, Intron или Cis-reg для Rfam. Последовательность SQ: количество последовательностей в выравнивании. Необязательные поля: ---------------- Комментарий к базе данных DC: Комментарий к ссылке на базу данных. Ссылка на базу данных DR: Ссылка на внешнюю базу данных. Ссылка RC Комментарий: комментарий о ссылке на литературу. Справочный номер РН: Справочный номер. Справочная медлайн RM: восьмизначный номер медлайн медлайн. Заголовок справки RT: Заголовок справки. Автор справочной информации РА: Автор справочной информации Расположение справки RL: Местоположение журнала. PI Предыдущий идентификатор: запись всех предыдущих строк идентификатора. KW Ключевые слова: Ключевые слова. Комментарий CC: Комментарии. Присоединение NE Pfam: указывает на вложенный домен. NL Location: Расположение вложенных доменов - идентификатор последовательности, начало и конец вставки. WK Ссылка на Википедию: страница Википедии CL Clan: присоединение к клану Членство в МБ: используется для перечисления членства в клане. Для встраивания деревьев: ---------------- NH New Hampshire Дерево в расширенном формате New Hampshire. TN Tree ID Уникальный идентификатор следующего дерева. Другой: ------ Частота ложного обнаружения FR: метод, используемый для установки порогового значения битовой оценки на основе отношения от ожидаемых ложных срабатываний до истинных срабатываний. Число с плавающей запятой от 0 до 1. CB Calibration method: Командная строка, используемая для калибровки модели (только Rfam, выпуск 12.0 и новее)

Примечания: дерево может храниться в нескольких строках # = GF NH.
Если несколько деревьев хранятся в одном файле, каждому дереву должна предшествовать строка # = GF TN с уникальным идентификатором дерева. Если включено только одно дерево, строку # = GF TN можно не указывать.

# = GS

Rfam и Pfam могут использовать эти функции:

 Описание функции --------------------- ----------- AC  Номер доступа DE  DEscription DR ; <присоединение>; Ссылка на базу данных ОС <организм> Организм (вид) OC  Классификация организмов (клады и т. Д.) LO <взгляд> Взгляд (цвет и т. Д.)

# = GR

 Функция Описание Буквы разметки ------- ----------- -------------- Вторичная структура SS для РНК [.,; <> () {} [] AaBb.-_] - поддерживает псевдоузел и дополнительную разметку структуры (см. Документацию WUSS)  Для белка [HGIEBTSCX] Доступность SA Surface [0-9X]  (0 = 0% -10%; ...; 9 = 90% -100%) Трансмембрана TM [Mio] Апостериорная вероятность PP [0-9 *]  (0 = 0,00-0,05; 1 = 0,05-0,15; * = 0,95-1,00) Связывание LI LIgand [*] Как активный сайт [*] pAS AS - прогноз Pfam [*] sAS AS - от SwissProt [*] IN INtron (в или после) [0-2]  Для третичных взаимодействий РНК: ------------------------------ tWW WC / WC в транс Для базовых пар: [<> AaBb ... Zz] Для непарных: [.] cWH WC / Hoogsteen в СНГ cWS WC / SugarEdge в снг TWS WC / SugarEdge в транс примечания: (1) {c, t} {W, H, S} {W, H, S} для общего формата.  (2) cWW эквивалентно SS.

# = GC

Список допустимых функций включает в себя те, которые показаны ниже, а также те же функции, что и для # = GR с добавлением «_cons», что означает «консенсус». Пример: «SS_cons».

 Функция Описание Описание ------- ----------- -------------- Аннотация RF ReFerence Часто в качестве ссылки используется консенсусная последовательность РНК или белка. Любой символ без пробела (например, x) может указывать на согласованные / сохраненные / совпадающие столбцы. . или-указывают на вставку столбцов ~ указывают на невыровненные вставки Верхний и нижний регистр могут использоваться для различения сильной и слабой сохраняемости.  остатки соответственно MM Model Mask Указывает, какие столбцы в трассе следует замаскировать, например что вероятности излучения для состояний совпадения, соответствующих эти столбцы будут фоновым распределением.

Заметки

Не используйте несколько строк с одинаковой меткой # = GC.
Для одной последовательности не используйте несколько строк с одинаковой меткой # = GR. Для каждой последовательности можно назначить только одно уникальное назначение.
«X» в SA и SS означает «остаток с неизвестной структурой».
Буквы SS взяты из DSSP : H = альфа-спираль, G = 3/10-спираль, I = p-спираль, E = удлиненная цепь, B = остаток в изолированном b-мостике, T = поворот, S = изгиб. , C = катушка / петля.)
Буквы РНК SS взяты из обозначения WUSS (вторичная структура Вашингтонского университета). Соответствующие вложенные круглые скобки символы <>, (), [] или {} указывают базовую пару. Символы '.', ',' И ';' указать непарные регионы. Соответствующие символы верхнего и нижнего регистра английского алфавита указывают на взаимодействия псевдоузлов . 5'-нуклеотид в узле должен быть в верхнем регистре, а 3'-нуклеотид в нижнем регистре.

Ограничения по размеру

Для любого поля нет явных ограничений по размеру. Однако простой синтаксический анализатор, использующий фиксированные размеры полей, должен безопасно работать при выравнивании Pfam и Rfam с этими ограничениями:

Длина строки: 10000.
<имя>: 255.
<функция>: 255.

Примеры

Ниже показан простой пример выравнивания Rfam ( UPSK RNA ) с псевдоузлом в Стокгольмском формате: ^[5]

# СТОКГОЛЬМ 1.0# = GF ID UPSK# = GF SE прогнозируемый; Адский# = Опубликован GF SS; PMID 9223489# = GF RN [1]# = GF RM 9223489# = GF RT Роль псевдоузла на 3 'конце желтой мозаики репы# = РНК вируса ОТ GF в минус-цепевом синтезе вирусной РНК-зависимой РНК# = Полимераза GF RT.# = Г.Ф. Р. А. Дейман Б. А., Кортлевер Р. М., Плей К. В.;# = GF RL J Virol 1997; 71: 5990-5996.AF035635.1 / 619-641 UGAGUUCUCGAUCUCUAAAAUCGM24804.1 / 82-104 UGAGUUCUCUAUCUCUAAAAUCGJ04373.1 / 6212-6234 UAAGUUCUCGAUCUUUAAAAUCGM24803.1 / 1-23 UAAGUUCUCGAUCUCUAAAAUCG# = GC SS_cons .AAA .... <<<< aaa .... >>>>//

Вот немного более сложный пример, показывающий домен Pfam CBS :

# СТОКГОЛЬМ 1.0# = GF ID CBS# = GF AC PF00571# = GF DE CBS домен# = GF AU Бейтман А# = GF CC Домены CBS - это небольшие внутриклеточные модули, которые чаще всего встречаются# = GF CC в 2 или четырех копиях в белке.# = GF SQ 5# = GS O31698 / 18-71 AC O31698# = GS O83071 / 192-246 AC O83071# = GS O83071 / 259-312 AC O83071# = GS O31698 / 88-139 AC O31698# = GS O31698 / 88-139 OS Bacillus subtilisO83071 / 192-246 MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS# = GR O83071 / 192-246 SA 9998877564535242525515252536463774777O83071 / 259-312 MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY# = GR O83071 / 259-312 SSCCCCCHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEEO31698 / 18-71 MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS# = GR O31698 / 18-71 СС CCCHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHHO31698 / 88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE# = GR O31698 / 88-139 СС ССС СССЧЧХХХХХХХХХХЕЕЕЕЕЕЕЕЕЕЕЕЕЕ# = GC SS_cons CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEHO31699 / 88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE# = GR O31699 / 88-139 AS ________________ * ____________________# = GR O31699 / 88-139 IN ____________1____________2______0____//

Смотрите также

Внешние ссылки

Определение стокгольмского формата Эриком Зоннхаммерсом

[pmid18953034-1] Гарднер П.П., Дауб Дж., Тейт Дж. Г. и др. (Январь 2009 г.). «Rfam: обновления базы данных семейств РНК» . Nucleic Acids Res . 37 (Выпуск базы данных): D136–40. DOI : 10.1093 / NAR / gkn766 . PMC 2686503 . PMID 18953034 .

[pmid18039703-2] Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Х.Р. Хотц, Церик Дж., Форслунд К., Эдди С.Р., Зоннхаммер Е.Л., Бейтман А. (2008). «База данных семейств белков Pfam» . Nucleic Acids Res . 36 (выпуск базы данных): D281–8. DOI : 10.1093 / NAR / gkm960 . PMC 2238907 . PMID 18039703 .

[pmid15377506-3] Гриффитс-Джонс С (январь 2005 г.). "RALEE - редактор выравнивания РНК в Emacs" . Биоинформатика . 21 (2): 257–9. DOI : 10.1093 / биоинформатики / bth489 . PMID 15377506 .

[jalview-fileformats-4] «Формат файлов выравнивания» . 22 мая 2019 . Проверено 22 мая 2019 .

[pmid9223489-5] Дейман Б.А., Кортлевер Р.М., Плейдж К.В. (август 1997 г.). «Роль псевдоузла на 3'-конце РНК вируса желтой мозаики репы в синтезе минус-цепи вирусной РНК-зависимой РНК-полимеразой» . J. Virol . 71 (8): 5990–6. DOI : 10,1128 / JVI.71.8.5990-5996.1997 . PMC 191855 . PMID 9223489 .

[1]