В биоинформатики и биохимии , то формат FASTA представляет собой текстовый формат для представления либо нуклеотидные последовательности , или аминокислоты (белок) последовательности, в которых нуклеотиды или аминокислоты , которые представлены с использованием однобуквенных кодов. Формат также позволяет размещать имена последовательностей и комментарии перед последовательностями. Формат основан на программном пакете FASTA , но теперь стал почти универсальным стандартом в области биоинформатики . [4]
Расширения имени файла | .fasta, .fna, .ffn, .faa, .frn, .fa |
---|---|
Тип интернет-СМИ | text/x-fasta |
Разработано | Дэвид Дж. Липман Уильям Р. Пирсон [1] [2] |
Первый выпуск | 1985 г. |
Тип формата | Биоинформатика |
Расширен с | ASCII для FASTA |
Расширен до | Формат FASTQ [3] |
Веб-сайт | www |
Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев, таких как язык программирования R , Python , Ruby и Perl .
Исходный формат и обзор
Исходный формат FASTA / Pearson описан в документации к пакету программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. Fasta20.doc, fastaVN.doc или fastaVN.me - где VN - номер версии).
В исходном формате последовательность представлялась как серия строк, каждая из которых не превышала 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для предварительного распределения размеров фиксированных линий в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. [ необходима цитата ] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованным использовать 80 или менее символов (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Таким образом, 80 символов стали нормой. [ необходима цитата ]
Первая строка в файле FASTA начинается либо с символа «>» (больше), либо, реже, с символа «;» [ необходима цитата ] (точка с запятой) была воспринята как комментарий. Последующие строки, начинающиеся с точки с запятой, будут игнорироваться программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения сводного описания последовательности, часто начинающегося с уникального регистрационного номера библиотеки, и со временем стало обычным делом всегда использовать ">" для первой строки и для не использовать ";" комментарии (которые в противном случае были бы проигнорированы).
После начальной строки (используемой для уникального описания последовательности) была сама последовательность в стандартной однобуквенной символьной строке. Все, кроме допустимого символа, будет проигнорировано (включая пробелы, табуляторы, звездочки и т. Д.). Также было принято заканчивать последовательность знаком «*» (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:
; LCBO - предшественник пролактина - Bovine; образец последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC *> MCHU - Кальмодулин - человек, кролик, крупный рогатый скот, крыса и курицаMADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGDGQVNYEEFVQMMTAK *> gi | 5524211 | gb | AAD44166.1 | цитохром b [Elephas maximus maximus]LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXIENY
Формат FASTA с несколькими последовательностями может быть получен путем объединения нескольких файлов FASTA с одной последовательностью в общий файл (также известный как формат с несколькими FASTA). Это не означает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с символа ";" или «>», что заставляет все последующие последовательности начинаться с «>», чтобы их можно было рассматривать как разные (и, кроме того, принудительно выполняет исключительное резервирование «>» для строки определения последовательности). Таким образом, приведенные выше примеры могут быть взяты вместе как многопоследовательный (т.е. мульти-FASTA) файл.
В настоящее время современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательностей будет предшествовать ">", а фактическая последовательность, хотя обычно представлена как "чередующаяся", то есть на нескольких строках, как в приведенном выше примере, также может быть " последовательный », когда полный участок находится на одной строке. Пользователям часто может потребоваться выполнить преобразование между «последовательным» и «чередующимся» форматом FASTA для запуска различных биоинформатических программ.
Строка описания
Строка описания (defline) или строка заголовка / идентификатора, которая начинается с '>', дает имя и / или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенных символом ^ A (Control-A). В исходном формате Pearson FASTA один или несколько комментариев, выделенных точкой с запятой в начале строки, могут находиться после заголовка. Некоторые базы данных и приложения для биоинформатики не распознают эти комментарии и следуют спецификации NCBI FASTA . Ниже приведен пример файла FASTA с несколькими последовательностями:
> SEQUENCE_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL> ПОСЛЕДОВАТЕЛЬНОСТЬ_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
Идентификаторы NCBI
NCBI определил стандарт для уникального идентификатора , используемого для последовательности (SeqID) в строке заголовка. Это позволяет пометить последовательность, полученную из базы данных, ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается такими инструментами NCBI, как makeblastdb
и table2asn
. В следующем списке описан формат, определенный NCBI FASTA для идентификаторов последовательностей. [5]
Тип | Формат (ы) | Примеры) |
---|---|---|
локальный (т.е. без ссылки на базу данных) | lcl|integer
| lcl|123
|
Seqid магистрали GenInfo | bbs|integer | bbs|123 |
Основа GenInfo moltype | bbm|integer | bbm|123 |
Идентификатор импорта GenInfo | gim|integer | gim|123 |
ГенБанк | gb|accession|locus | gb|M73307|AGMA13GT |
EMBL | emb|accession|locus | emb|CAM43271.1| |
PIR | pir|accession|name | pir||G36364 |
SWISS-PROT | sp|accession|name | sp|P01013|OVAX_CHICK |
патент | pat|country|patent|sequence-number | pat|US|RE33188|1 |
предварительный патент | pgp|country|application-number|sequence-number | pgp|EP|0238993|7 |
RefSeq | ref|accession|name | ref|NM_010450.1| |
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке) | gnl|database|integer
| gnl|taxon|9606
|
Интегрированная база данных GenInfo | gi|integer | gi|21434723 |
DDBJ | dbj|accession|locus | dbj|BAC85684.1| |
PRF | prf|accession|name | prf||0806162C |
PDB | pdb|entry|chain | pdb|1I4L|D |
сторонний GenBank | tpg|accession|name | tpg|BK003456| |
сторонняя EMBL | tpe|accession|name | tpe|BN000123| |
сторонний DDBJ | tpd|accession|name | tpd|FAA00017| |
TrEMBL | tr|accession|name | tr|Q90RT2|Q90RT2_9HIV1 |
Вертикальные полосы («|») в приведенном выше списке не являются разделителями в смысле формы Бэкуса – Наура , но являются частью формата. Можно объединить несколько идентификаторов, также разделенных вертикальными полосами.
Представление последовательности
После строки заголовка представлена фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. Выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB / IUPAC , за следующими исключениями: буквы нижнего регистра принимаются и отображаются в верхнем регистре; одиночный дефис или тире может использоваться для обозначения символа пробела; а в аминокислотных последовательностях допустимые буквы U и * (см. ниже). Цифровые цифры не допускаются, но используются в некоторых базах данных для обозначения позиции в последовательности. Поддерживаются следующие коды нуклеиновых кислот: [6] [7] [8]
Код нуклеиновой кислоты | Имея в виду | Мнемонический |
---|---|---|
А | А | Денин |
C | C | C ytosine |
грамм | грамм | G uanine |
Т | Т | T hymine |
U | U | U racil |
(я) | я | я носин (нестандартный) |
р | A или G (I) | пу R ине |
Y | C, T или U | p Y римидины |
K | G, T или U | основания , которые K etones |
M | А или С | основания с в М иных групп |
S | C или G | S взаимодействие Чонг |
W | A, T или U | W взаимодействие ЕАК |
B | не A (то есть C, G, T или U) | B идет после A |
D | не C (то есть A, G, T или U) | D идет после C |
ЧАС | не G (то есть A, C, T или U) | H идет после G |
V | ни T, ни U (т.е. A, C или G) | V идет после U |
N | ACGTU | N ucleic кислоты |
- | разрыв неопределенной длины |
Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):
Аминокислотный код | Имея в виду |
---|---|
А | Аланин |
B | Аспарагиновая кислота (D) или аспарагин (N) |
C | Цистеин |
D | Аспарагиновая кислота |
E | Глютаминовая кислота |
F | Фенилаланин |
грамм | Глицин |
ЧАС | Гистидин |
я | Изолейцин |
J | Лейцин (L) или изолейцин (I) |
K | Лизин |
L | Лейцин |
M | Метионин / Старт-кодон |
N | Аспарагин |
О | Пирролизин (редко) |
п | Пролин |
Q | Глутамин |
р | Аргинин |
S | Серин |
Т | Треонин |
U | Селеноцистеин (редко) |
V | Валин |
W | Триптофан |
Y | Тирозин |
Z | Глутаминовая кислота (E) или глутамин (Q) |
Икс | любой |
* | остановка перевода |
- | разрыв неопределенной длины |
FASTA файл
Расширение имени файла
Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.
Расширение | Имея в виду | Заметки |
---|---|---|
fasta, fa [9] | общий FASTA | Любой универсальный файл fasta. Ниже приведены другие распространенные расширения файлов FASTA. |
фна | Нуклеиновая кислота FASTA | Обычно используется для определения нуклеиновых кислот. |
ffn | Нуклеотид FASTA участков гена | Содержит кодирующие области для генома. |
фаа | Аминокислота FASTA | Содержит аминокислотные последовательности. Многопротеиновый файл fasta может иметь более конкретное расширение mpfa. |
frn | Некодирующая РНК FASTA | Содержит некодирующие участки РНК для генома в алфавитном порядке ДНК, например тРНК, рРНК |
Сжатие
Для сжатия файлов FASTA требуется специальный компрессор для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном разделены на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress [10] выполняет сжатие этих файлов без потерь, используя контекстное моделирование и арифметическое кодирование. Для тестов алгоритмов сжатия файлов FASTA см. Hosseini et al., 2016, [11] и Kryukov et al., 2020. [12]
Шифрование
Шифрование файлов FASTA в основном решается с помощью специального инструмента шифрования: Cryfa. [13] [14] Cryfa использует шифрование AES и позволяет уплотнять данные помимо шифрования. Он также может обращаться к файлам FASTQ.
Расширения
Формат FASTQ - это форма формата FASTA, расширенная для указания информации, относящейся к секвенированию. Он создан Центром Сэнгера в Кембридже. [3]
A2M / A3M - это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M / A3M символы нижнего регистра означают вставки, которые затем обозначаются в других последовательностях точкой (" . ") символ. Точки можно отбросить для компактности без потери информации. Как и в случае с типичным FASTA, используемым при выравнивании, пробел (" - ") означает ровно одну позицию. [15] A3M аналогичен A2M с добавленным правилом, согласно которому пробелы, выровненные со вставками, также могут быть отброшены. [16]
Работа с файлами FASTA
Сообщество предлагает множество удобных сценариев для выполнения операций с файлами FASTA. Также доступны онлайн-инструменты, такие как FaBox [17] или FASTX-Toolkit на серверах Galaxy. [18] Например, их можно использовать для разделения заголовков / идентификаторов последовательностей, переименования их, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Также существует древовидный подход к сортировке файлов с несколькими FASTA (TREE2FASTA [19] ), основанный на раскрашивании и / или аннотации интересующей последовательности в программе просмотра FigTree. Кроме того, Bioconductor.org в Biostrings пакет может быть использован для чтения и манипулировать FASTA файлы в R . [20]
Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в различные форматы (например, NEXUS, PHYLIP) для их использования в различных филогенетических программах (например, таких как конвертер, доступный на phylogeny.fr. [21]
Смотрите также
- Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
- Формат SAM , используемый для представления считываний секвенатора генома, как правило, но не обязательно после того, как они были выровнены с последовательностями генома. [22]
- Формат GVF (формат вариации генома), расширение, основанное на формате GFF3 .
Рекомендации
- Перейти ↑ Lipman DJ, Pearson WR (март 1985 г.). «Быстрые и чувствительные поиски сходства белков». Наука . 227 (4693): 1435–41. Bibcode : 1985Sci ... 227.1435L . DOI : 10.1126 / science.2983426 . PMID 2983426 .
- ^ Пирсон В. Р., Липман Д. Д. (апрель 1988 г.). «Улучшенные инструменты для сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Bibcode : 1988PNAS ... 85.2444P . DOI : 10.1073 / pnas.85.8.2444 . PMC 280013 . PMID 3162770 .
- ^ а б Петух PJ, Филдс CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa / Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–71. DOI : 10.1093 / NAR / gkp1137 . PMC 2847217 . PMID 20015970 .
- ^ "Что такое формат FASTA?" . zhanglab.ccmb.med.umich.edu . объясняет формат FASTA
- ^ NCBI C ++ Toolkit Book . Национальный центр биотехнологической информации . Проверено 19 декабря 2018 .
- ^ Дао Тао (24.08.2011). «Однобуквенные коды для нуклеотидов» . [Учебный центр NCBI] . Национальный центр биотехнологической информации . Проверено 15 марта 2012 .
- ^ «Кодовая таблица ИЮПАК» . НИАС ДНК Банк. Архивировано из оригинала на 2011-08-11.
- ^ «любой символ» . MAFFT - программа множественного выравнивания последовательностей .
- ^ «Формат файлов выравнивания» . 22 мая 2019 . Проверено 22 мая 2019 .
- ^ Пинхо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент для сжатия данных FASTA и multi-FASTA» . Биоинформатика . 30 (1): 117–8. DOI : 10.1093 / биоинформатики / btt594 . PMC 3866555 . PMID 24132931 .
- ^ М. Хоссейни, Д. Пратас и А. Пинхо. 2016. Обзор методов сжатия данных для биологических последовательностей. Информация 7 (4) :( 2016): 56
- ^ Крюков К., Уэда М.Т., Накагава С., Иманиши Т. (июль 2020 г.). «База данных тестов сжатия последовательностей (SCB) - всесторонняя оценка безреференсных компрессоров для последовательностей в формате FASTA» . GigaScience . 9 (7): giaa072. DOI : 10,1093 / gigascience / giaa072 . PMC 7336184 . PMID 32627830 .
- ^ Пратас Д., Хоссейни М., Пинхо А. (2017). «Cryfa: инструмент для сжатия и шифрования файлов FASTA». 11-я Международная конференция по практическому применению вычислительной биологии и биоинформатики (PACBB) . Достижения в интеллектуальных системах и вычислениях. 616 . Springer. С. 305–312. DOI : 10.1007 / 978-3-319-60816-7_37 . ISBN 978-3-319-60815-0.
- ^ Хоссейни М., Пратас Д., Пинхо А. (2018). Cryfa: надежный инструмент шифрования геномных данных . Биоинформатика . 35 . С. 146–148. DOI : 10.1093 / биоинформатики / bty645 . PMC 6298042 . PMID 30020420 .
- ^ «Описание формата выравнивания A2M» . SAMtools .
- ^ "soedinglab / hh-suite :format.pl" . GitHub .
- ^ Виллесен П. (апрель 2007 г.). «FaBox: онлайн-набор инструментов для быстрых последовательностей». Ресурсы молекулярной экологии . 7 (6): 965–968. DOI : 10.1111 / j.1471-8286.2007.01821.x .
- ^ Бланкенберг Д., Фон Кустер Г., Бувье Э., Бейкер Д., Афган Э., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed» . Геномная биология . 15 (2): 403. DOI : 10,1186 / gb4161 . PMC 4038738 . PMID 25001293 .
- ^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (март 2018 г.). «TREE2FASTA: гибкий Perl-скрипт для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев» . BMC Research Notes . 11 (1): 403. DOI : 10,1186 / s13104-018-3268-у . PMC 5838971 . PMID 29506565 .
- ^ Pagès, H; Aboyoun, P; Джентльмен, Р. Деброй, С (2018). « Биологические струны: эффективное манипулирование биологическими струнами » . Bioconductor.org . Пакет R версии 2.48.0.
- ^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (июль 2008 г.). «Phylogeny.fr: надежный филогенетический анализ для неспециалистов» . Исследования нуклеиновых кислот . 36 (выпуск веб-сервера): W465–9. DOI : 10.1093 / NAR / gkn180 . PMC 2447785 . PMID 18424797 .
- ^ https://samtools.github.io/hts-specs/SAMv1.pdf
Внешние ссылки
- Биокондуктор
- FASTX-Toolkit
- Зритель FigTree
- Phylogeny.fr
- GTO