FASTA


FASTA — текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов[⇨]. Из-за своей простоты и практичности в настоящее время используется большинством программ работы с биологическими последовательностями[⇨]. Файлы данного формата могут содержать названия последовательностей, их идентификаторы[⇨] в базах данных и комментарии. В зависимости от природы содержащихся в нем биологических последовательностей файл формата FASTA может иметь различные расширения[⇨].

Формат придуман Дэвидом Липманом[en] и Уильямом Пирсоном[en][2][3] в 1985 году для одноименной программы[en], предназначенной для поиска в больших базах последовательностей, гомологичных данной. Первичное описание формата было произведено ими в документации этой программы, а сейчас его описание является частью документации программы BLAST[4].

Простота FASTA-формата позволяет легко осуществлять различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python[5], Ruby[6], Perl[7], Java[8].

Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления данных о биологических последовательностях[9]. Существуют также другие форматы, в том числе используемые в банках данных GenBank[10], EMBL[11] и UniProt[12].

Последовательности в формате FASTA начинаются с однострочного описания, за которым следуют строки, содержащие собственно последовательность. Описание отмечается символом «больше» («>») в первой колонке. Слово за этим символом и до первого пробела является идентификатором последовательности[⇨], далее следует опциональное описание. Следующие несколько строк могут иметь первым символом точку с запятой («;»), и тогда они будут восприниматься как комментарии. На данный момент многие базы данных и программы не распознают комментарии, поэтому они мало распространены. Дальше следуют строки, содержащие собственно биологические последовательности. Обычно строки в формате FASTA ограничены длиной от 80 до 120 символов (по историческим причинам), но современные программы распознают последовательности, записанные полностью в одну строку. В один файл могут быть записаны несколько последовательностей, таким образом получается мульти-FASTA файл, однако перед каждой последовательностью должен стоять свой идентификатор[13]. Пример одной последовательности в формате FASTA:[14]