Формат FASTA

В биоинформатики и биохимии , то формат FASTA представляет собой текстовый формат для представления либо нуклеотидные последовательности , или аминокислоты (белок) последовательности, в которых нуклеотиды или аминокислоты , которые представлены с использованием однобуквенных кодов. Формат также позволяет размещать имена последовательностей и комментарии перед последовательностями. Формат основан на программном пакете FASTA , но теперь стал почти универсальным стандартом в области биоинформатики . ^[4]

Формат FASTA
Расширения имени файла	.fasta, .fna, .ffn, .faa, .frn, .fa
Тип интернет-СМИ	`text/x-fasta`
Разработано	Дэвид Дж. Липман Уильям Р. Пирсон ^[1]^[2]
Первый выпуск	1985 г.
Тип формата	Биоинформатика
Расширен с	ASCII для FASTA
Расширен до	Формат FASTQ ^[3]
Веб-сайт	www .ncbi .nlm .nih .gov / BLAST / fasta .shtml

Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев, таких как язык программирования R , Python , Ruby и Perl .

Исходный формат и обзор

Исходный формат FASTA / Pearson описан в документации к пакету программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. Fasta20.doc, fastaVN.doc или fastaVN.me - где VN - номер версии).

В исходном формате последовательность представлялась как серия строк, каждая из которых не превышала 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для предварительного распределения размеров фиксированных линий в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. ^{[ необходима цитата ]} Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованным использовать 80 или менее символов (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Таким образом, 80 символов стали нормой. ^{[ необходима цитата ]}

Первая строка в файле FASTA начинается либо с символа «>» (больше), либо, реже, с символа «;» ^{[ необходима цитата ]} (точка с запятой) была воспринята как комментарий. Последующие строки, начинающиеся с точки с запятой, будут игнорироваться программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения сводного описания последовательности, часто начинающегося с уникального регистрационного номера библиотеки, и со временем стало обычным делом всегда использовать ">" для первой строки и для не использовать ";" комментарии (которые в противном случае были бы проигнорированы).

После начальной строки (используемой для уникального описания последовательности) была сама последовательность в стандартной однобуквенной символьной строке. Все, кроме допустимого символа, будет проигнорировано (включая пробелы, табуляторы, звездочки и т. Д.). Также было принято заканчивать последовательность знаком «*» (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:

; LCBO - предшественник пролактина - Bovine; образец последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC *> MCHU - Кальмодулин - человек, кролик, крупный рогатый скот, крыса и курицаMADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK *> gi | 5524211 | gb | AAD44166.1 | цитохром b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY

Формат FASTA с несколькими последовательностями может быть получен путем объединения нескольких файлов FASTA с одной последовательностью в общий файл (также известный как формат с несколькими FASTA). Это не означает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с символа ";" или «>», что заставляет все последующие последовательности начинаться с «>», чтобы их можно было рассматривать как разные (и, кроме того, принудительно выполняет исключительное резервирование «>» для строки определения последовательности). Таким образом, приведенные выше примеры могут быть взяты вместе как многопоследовательный (т.е. мульти-FASTA) файл.

В настоящее время современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательностей будет предшествовать ">", а фактическая последовательность, хотя обычно представлена как "чередующаяся", то есть на нескольких строках, как в приведенном выше примере, также может быть " последовательный », когда полный участок находится на одной строке. Пользователям часто может потребоваться выполнить преобразование между «последовательным» и «чередующимся» форматом FASTA для запуска различных биоинформатических программ.

Строка описания

Строка описания (defline) или строка заголовка / идентификатора, которая начинается с '>', дает имя и / или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенных символом ^ A (Control-A). В исходном формате Pearson FASTA один или несколько комментариев, выделенных точкой с запятой в начале строки, могут находиться после заголовка. Некоторые базы данных и приложения для биоинформатики не распознают эти комментарии и следуют спецификации NCBI FASTA . Ниже приведен пример файла FASTA с несколькими последовательностями:

> SEQUENCE_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL> ПОСЛЕДОВАТЕЛЬНОСТЬ_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Идентификаторы NCBI

NCBI определил стандарт для уникального идентификатора , используемого для последовательности (SeqID) в строке заголовка. Это позволяет пометить последовательность, полученную из базы данных, ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается такими инструментами NCBI, как makeblastdbи table2asn. В следующем списке описан формат, определенный NCBI FASTA для идентификаторов последовательностей. ^[5]

Тип	Формат (ы)	Примеры)
локальный (т.е. без ссылки на базу данных)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
Seqid магистрали GenInfo	`bbs\|integer`	`bbs\|123`
Основа GenInfo moltype	`bbm\|integer`	`bbm\|123`
Идентификатор импорта GenInfo	`gim\|integer`	`gim\|123`
ГенБанк	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
EMBL	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
PIR	`pir\|accession\|name`	`pir\|\|G36364`
SWISS-PROT	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
патент	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
предварительный патент	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
RefSeq	`ref\|accession\|name`	`ref\|NM_010450.1\|`
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
Интегрированная база данных GenInfo	`gi\|integer`	`gi\|21434723`
DDBJ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
PRF	`prf\|accession\|name`	`prf\|\|0806162C`
PDB	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
сторонний GenBank	`tpg\|accession\|name`	`tpg\|BK003456\|`
сторонняя EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
сторонний DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
TrEMBL	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`

Вертикальные полосы («|») в приведенном выше списке не являются разделителями в смысле формы Бэкуса – Наура , но являются частью формата. Можно объединить несколько идентификаторов, также разделенных вертикальными полосами.

Представление последовательности

После строки заголовка представлена фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. Выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB / IUPAC , за следующими исключениями: буквы нижнего регистра принимаются и отображаются в верхнем регистре; одиночный дефис или тире может использоваться для обозначения символа пробела; а в аминокислотных последовательностях допустимые буквы U и * (см. ниже). Цифровые цифры не допускаются, но используются в некоторых базах данных для обозначения позиции в последовательности. Поддерживаются следующие коды нуклеиновых кислот: ^[6]^[7]^[8]

Код нуклеиновой кислоты	Имея в виду	Мнемонический
А	А	Денин
C	C	C ytosine
грамм	грамм	G uanine
Т	Т	T hymine
U	U	U racil
(я)	я	я носин (нестандартный)
р	A или G (I)	пу R ине
Y	C, T или U	p Y римидины
K	G, T или U	основания , которые K etones
M	А или С	основания с в М иных групп
S	C или G	S взаимодействие Чонг
W	A, T или U	W взаимодействие ЕАК
B	не A (то есть C, G, T или U)	B идет после A
D	не C (то есть A, G, T или U)	D идет после C
ЧАС	не G (то есть A, C, T или U)	H идет после G
V	ни T, ни U (т.е. A, C или G)	V идет после U
N	ACGTU	N ucleic кислоты
-	разрыв неопределенной длины

Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):

Аминокислотный код	Имея в виду
А	Аланин
B	Аспарагиновая кислота (D) или аспарагин (N)
C	Цистеин
D	Аспарагиновая кислота
E	Глютаминовая кислота
F	Фенилаланин
грамм	Глицин
ЧАС	Гистидин
я	Изолейцин
J	Лейцин (L) или изолейцин (I)
K	Лизин
L	Лейцин
M	Метионин / Старт-кодон
N	Аспарагин
О	Пирролизин (редко)
п	Пролин
Q	Глутамин
р	Аргинин
S	Серин
Т	Треонин
U	Селеноцистеин (редко)
V	Валин
W	Триптофан
Y	Тирозин
Z	Глутаминовая кислота (E) или глутамин (Q)
Икс	любой
*	остановка перевода
-	разрыв неопределенной длины

FASTA файл

Расширение имени файла

Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.

Расширение	Имея в виду	Заметки
fasta, fa ^[9]	общий FASTA	Любой универсальный файл fasta. Ниже приведены другие распространенные расширения файлов FASTA.
фна	Нуклеиновая кислота FASTA	Обычно используется для определения нуклеиновых кислот.
ffn	Нуклеотид FASTA участков гена	Содержит кодирующие области для генома.
фаа	Аминокислота FASTA	Содержит аминокислотные последовательности. Многопротеиновый файл fasta может иметь более конкретное расширение mpfa.
frn	Некодирующая РНК FASTA	Содержит некодирующие участки РНК для генома в алфавитном порядке ДНК, например тРНК, рРНК

Сжатие

Для сжатия файлов FASTA требуется специальный компрессор для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном разделены на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress ^[10] выполняет сжатие этих файлов без потерь, используя контекстное моделирование и арифметическое кодирование. Для тестов алгоритмов сжатия файлов FASTA см. Hosseini et al., 2016, ^[11] и Kryukov et al., 2020. ^[12]

Шифрование

Шифрование файлов FASTA в основном решается с помощью специального инструмента шифрования: Cryfa. ^[13]^[14] Cryfa использует шифрование AES и позволяет уплотнять данные помимо шифрования. Он также может обращаться к файлам FASTQ.

Расширения

Формат FASTQ - это форма формата FASTA, расширенная для указания информации, относящейся к секвенированию. Он создан Центром Сэнгера в Кембридже. ^[3]

A2M / A3M - это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M / A3M символы нижнего регистра означают вставки, которые затем обозначаются в других последовательностях точкой (" . ") символ. Точки можно отбросить для компактности без потери информации. Как и в случае с типичным FASTA, используемым при выравнивании, пробел (" - ") означает ровно одну позицию. ^[15] A3M аналогичен A2M с добавленным правилом, согласно которому пробелы, выровненные со вставками, также могут быть отброшены. ^[16]

Работа с файлами FASTA

Сообщество предлагает множество удобных сценариев для выполнения операций с файлами FASTA. Также доступны онлайн-инструменты, такие как FaBox ^[17] или FASTX-Toolkit на серверах Galaxy. ^[18] Например, их можно использовать для разделения заголовков / идентификаторов последовательностей, переименования их, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Также существует древовидный подход к сортировке файлов с несколькими FASTA (TREE2FASTA ^[19] ), основанный на раскрашивании и / или аннотации интересующей последовательности в программе просмотра FigTree. Кроме того, Bioconductor.org в Biostrings пакет может быть использован для чтения и манипулировать FASTA файлы в R . ^[20]

Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в различные форматы (например, NEXUS, PHYLIP) для их использования в различных филогенетических программах (например, таких как конвертер, доступный на phylogeny.fr. ^[21]

Смотрите также

Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
Формат SAM , используемый для представления считываний секвенатора генома, как правило, но не обязательно после того, как они были выровнены с последовательностями генома. ^[22]
Формат GVF (формат вариации генома), расширение, основанное на формате GFF3 .

Внешние ссылки

Биокондуктор
FASTX-Toolkit
Зритель FigTree
Phylogeny.fr
GTO

[rapid-1] Перейти ↑ Lipman DJ, Pearson WR (март 1985 г.). «Быстрые и чувствительные поиски сходства белков». Наука . 227 (4693): 1435–41. Bibcode : 1985Sci ... 227.1435L . DOI : 10.1126 / science.2983426 . PMID 2983426 .

[improved-2] Пирсон В. Р., Липман Д. Д. (апрель 1988 г.). «Улучшенные инструменты для сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Bibcode : 1988PNAS ... 85.2444P . DOI : 10.1073 / pnas.85.8.2444 . PMC 280013 . PMID 3162770 .

[fastq-3] а б Петух PJ, Филдс CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa / Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–71. DOI : 10.1093 / NAR / gkp1137 . PMC 2847217 . PMID 20015970 .

[4] "Что такое формат FASTA?" . zhanglab.ccmb.med.umich.edu . объясняет формат FASTA

[5] NCBI C ++ Toolkit Book . Национальный центр биотехнологической информации . Проверено 19 декабря 2018 .

[6] Дао Тао (24.08.2011). «Однобуквенные коды для нуклеотидов» . [Учебный центр NCBI] . Национальный центр биотехнологической информации . Проверено 15 марта 2012 .

[7] «Кодовая таблица ИЮПАК» . НИАС ДНК Банк. Архивировано из оригинала на 2011-08-11.

[8] «любой символ» . MAFFT - программа множественного выравнивания последовательностей .

[9] «Формат файлов выравнивания» . 22 мая 2019 . Проверено 22 мая 2019 .

[MFCompress-10] Пинхо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент для сжатия данных FASTA и multi-FASTA» . Биоинформатика . 30 (1): 117–8. DOI : 10.1093 / биоинформатики / btt594 . PMC 3866555 . PMID 24132931 .

[Morteza-11] М. Хоссейни, Д. Пратас и А. Пинхо. 2016. Обзор методов сжатия данных для биологических последовательностей. Информация 7 (4) :( 2016): 56

[SCB-12] Крюков К., Уэда М.Т., Накагава С., Иманиши Т. (июль 2020 г.). «База данных тестов сжатия последовательностей (SCB) - всесторонняя оценка безреференсных компрессоров для последовательностей в формате FASTA» . GigaScience . 9 (7): giaa072. DOI : 10,1093 / gigascience / giaa072 . PMC 7336184 . PMID 32627830 .

[CRYFA1-13] Пратас Д., Хоссейни М., Пинхо А. (2017). «Cryfa: инструмент для сжатия и шифрования файлов FASTA». 11-я Международная конференция по практическому применению вычислительной биологии и биоинформатики (PACBB) . Достижения в интеллектуальных системах и вычислениях. 616 . Springer. С. 305–312. DOI : 10.1007 / 978-3-319-60816-7_37 . ISBN 978-3-319-60815-0.

[CRYFA2-14] Хоссейни М., Пратас Д., Пинхо А. (2018). Cryfa: надежный инструмент шифрования геномных данных . Биоинформатика . 35 . С. 146–148. DOI : 10.1093 / биоинформатики / bty645 . PMC 6298042 . PMID 30020420 .

[15] «Описание формата выравнивания A2M» . SAMtools .

[16] "soedinglab / hh-suite :format.pl" . GitHub .

[FaBox-17] Виллесен П. (апрель 2007 г.). «FaBox: онлайн-набор инструментов для быстрых последовательностей». Ресурсы молекулярной экологии . 7 (6): 965–968. DOI : 10.1111 / j.1471-8286.2007.01821.x .

[Galaxyserver-18] Бланкенберг Д., Фон Кустер Г., Бувье Э., Бейкер Д., Афган Э., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed» . Геномная биология . 15 (2): 403. DOI : 10,1186 / gb4161 . PMC 4038738 . PMID 25001293 .

[tree2fasta-19] Sauvage T, Plouviez S, Schmidt WE, Fredericq S (март 2018 г.). «TREE2FASTA: гибкий Perl-скрипт для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев» . BMC Research Notes . 11 (1): 403. DOI : 10,1186 / s13104-018-3268-у . PMC 5838971 . PMID 29506565 .

[20] Pagès, H; Aboyoun, P; Джентльмен, Р. Деброй, С (2018). « Биологические струны: эффективное манипулирование биологическими струнами » . Bioconductor.org . Пакет R версии 2.48.0.

[phylodotfr-21] Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (июль 2008 г.). «Phylogeny.fr: надежный филогенетический анализ для неспециалистов» . Исследования нуклеиновых кислот . 36 (выпуск веб-сервера): W465–9. DOI : 10.1093 / NAR / gkn180 . PMC 2447785 . PMID 18424797 .

[22] ttps://samtools.github.io/hts-specs/SAMv1.pdf

[4]

Тип	Формат (ы)	Примеры)
локальный (т.е. без ссылки на базу данных)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
Seqid магистрали GenInfo	`bbs\|integer`	`bbs\|123`
Основа GenInfo moltype	`bbm\|integer`	`bbm\|123`
Идентификатор импорта GenInfo	`gim\|integer`	`gim\|123`
ГенБанк	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
EMBL	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
PIR	`pir\|accession\|name`	`pir\|\|G36364`
SWISS-PROT	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
патент	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
предварительный патент	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
RefSeq	`ref\|accession\|name`	`ref\|NM_010450.1\|`
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
Интегрированная база данных GenInfo	`gi\|integer`	`gi\|21434723`
DDBJ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
PRF	`prf\|accession\|name`	`prf\|\|0806162C`
PDB	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
сторонний GenBank	`tpg\|accession\|name`	`tpg\|BK003456\|`
сторонняя EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
сторонний DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
TrEMBL	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`