Расширения имени файла | .gff |
---|---|
Тип интернет-СМИ | text/gff3 |
Разработан | Центр Сэнгера (версия 2), Проект онтологии последовательностей (версия 3) |
Тип формата | Биоинформатика |
Расширен с | Значения, разделенные табуляцией |
Открытый формат ? | да |
Веб-сайт | github |
В биоинформатики , то общий формат функции ( формат гена-вывод , универсальный формат функция , GFF ) представляет собой формат файла используется для описания генов и другие особенности ДНК , РНК и белковые последовательности.
Версии GFF [ править ]
Существуют следующие версии GFF:
- Общий формат функций версии 2 , как правило, не рекомендуется
- Gene Transfer Format 2.2 , производная от Ensembl
- Универсальный формат функций версии 3
- Формат вариации генома с дополнительными прагмами и атрибутами для функций sequence_alteration
GFF2 / GTF имеет ряд недостатков, в частности, то, что он может представлять только двухуровневую иерархию признаков и, таким образом, не может обрабатывать трехуровневую иерархию ген → транскрипт → экзон. GFF3 устраняет этот и другие недостатки. Например, он поддерживает произвольное количество иерархических уровней и придает определенные значения определенным тегам в поле атрибутов.
ГТФ идентичен GFF, версия 2. [1]
Общая структура GFF [ править ]
Все форматы GFF (GFF2, GFF3 и GTF) являются вкладка разделителями с 9 полей в каждой строке. Все они имеют одинаковую структуру для первых 7 полей, но различаются по содержанию и формату девятого поля . Общая структура следующая:
Индекс позиции | Название должности | Описание |
---|---|---|
1 | последовательность | Название последовательности, в которой расположен объект. |
2 | источник | Ключевое слово, определяющее источник функции, например программу (например, Augustus или RepeatMasker ) или организацию (например, TAIR ). |
3 | характерная черта | Название типа функции, например «ген» или «экзон». В хорошо структурированном файле GFF все дочерние функции всегда следуют за своими родителями в едином блоке (поэтому все экзоны транскрипции помещаются после их родительской характерной строки «транскрипта» и перед любой другой родительской строкой транскрипции). В GFF3 все функции и их отношения должны быть совместимы со стандартами, выпущенными Sequence Ontology Project . |
4 | Начало | Геномное начало признака со смещением в 1 основание . Это контрастирует с другими полуоткрытыми форматами последовательностей с нулевым смещением, такими как BED . |
5 | конец | Геномный конец признака со смещением в 1 основание . Это та же конечная координата, что и в полуоткрытых форматах последовательности с нулевым смещением, таких как BED . [ необходима цитата ] |
6 | счет | Числовое значение, которое обычно указывает на достоверность источника аннотированного объекта. Значение "." (точка) используется для определения нулевого значения. |
7 | прядь | Одиночный символ, обозначающий нить объекта; он может принимать значения «+» (положительный, или 5 '-> 3'), «-», (отрицательный, или 3 '-> 5'), «.» (не определено). |
8 | фаза | фаза особенностей CDS; это может быть одно из значений 0, 1, 2 (для функций CDS) или "." (для всего остального). См. Раздел ниже для подробного объяснения. |
9 | атрибуты | Вся остальная информация, относящаяся к этой функции. Формат, структура и содержание этого поля больше всего различаются между тремя конкурирующими форматами файлов. |
Восьмое поле: этап возможностей CDS [ править ]
Проще говоря, CDS означает «последовательность кодирования». Точное значение термина определяется онтологией последовательностей (SO). Согласно спецификации GFF3 : [2] [3]
Для признаков типа «CDS» фаза указывает, где признак начинается со ссылкой на рамку считывания. Фаза - это одно из целых чисел 0, 1 или 2, указывающее количество оснований, которые должны быть удалены из начала этого признака, чтобы достичь первого основания следующего кодона.
Мета-директивы [ править ]
В файлы GFF может быть включена дополнительная метаинформация, которая следует за директивой ##. Эта метаинформация может содержать подробную информацию о версии GFF, регионе последовательности или виде (полный список типов метаданных можно найти в спецификациях Sequence Ontology ).
Программное обеспечение GFF [ править ]
Серверы [ править ]
Серверы, которые генерируют этот формат:
Сервер | Пример файла |
---|---|
UniProt | [1] |
Клиенты [ править ]
Клиенты, использующие этот формат:
Имя | Описание | Ссылки |
---|---|---|
GBrowse | Программа просмотра генома GMOD | GBrowse |
IGB | Встроенный браузер генома | Встроенный браузер генома |
Jalview | Редактор и просмотрщик множественного выравнивания последовательностей | Jalview |
РЕМЕНЬ | Подчеркивание особенностей последовательности в нескольких выравниваниях. Пример вывода: [2] | [3] |
JBrowse | JBrowse - это быстрый встраиваемый браузер генома, полностью построенный на JavaScript и HTML5. | JBrowse.org |
ЗЕНБУ | Совместная система интеграции данных и интерактивной визуализации omics | [4] |
Проверка [ править ]
В проекте modENCODE размещен онлайн-инструмент проверки GFF3 с большими лимитами 286,10 МБ и 15 миллионами строк.
Коллекция программного обеспечения Genome Tools содержит инструмент gff3validator , который можно использовать в автономном режиме для проверки и, возможно, очистки файлов GFF3. Служба проверки интернет также доступна.
См. Также [ править ]
- Распределенная система аннотаций
- Вариант формата звонка
- Выравнивание последовательности
Ссылки [ править ]
- ^ Информация о GFF / GTF , из Ensembl
- ^ «Спецификация GFF3» . 2018-11-24.
- ^ "Gff3 - Gmod" .