Расширение имени файла | vcf |
---|---|
Разработан | VCFtools |
Последний релиз | 4.3 (13 января 2021 г . ) |
Тип формата | Формат геномной последовательности |
Расширен с | Значения, разделенные табуляцией |
Открытый формат ? | да |
Интернет сайт | samtools |
Формат Variant Call Format ( VCF ) определяет формат текстового файла, используемого в биоинформатике для хранения вариаций последовательности генов . Формат был разработан с появлением крупномасштабных проектов генотипирования и секвенирования ДНК , таких как проект « 1000 геномов» . В существующих форматах генетических данных, таких как общий формат функций (GFF), хранятся все генетические данные, большая часть которых является избыточной, поскольку они будут совместно использоваться в геномах. При использовании формата вызова вариантов необходимо хранить только варианты вместе со ссылочным геномом.
Стандарт в настоящее время находится в версии 4.3, [1] [2], хотя Проект 1000 Genomes разработал свою собственную спецификацию для структурных вариаций, таких как дублирование, которые нелегко включить в существующую схему. [3] Существует также расширенный формат Genomic VCF ( gVCF ), который включает дополнительную информацию о «блоках», соответствующих эталону, и их качествам. [4] Также доступен набор инструментов для редактирования файлов и управления ими. [5] [6]
Пример [ править ]
## fileformat = VCFv4.3## fileDate = 20090805## source = myImputationProgramV3.1## ссылка = файл: ///seq/references/1000GenomesPilot-NCBI36.fasta## contig = <ID = 20, длина = 62435964, сборка = B36, md5 = f126cdf8a6e0c7f379d618ff66beb2da, разновидности = "Homo sapiens", taxonomy = x>## фазировка = частичная## INFO = <ID = NS, Number = 1, Type = Integer, Description = "Количество выборок с данными">## INFO = <ID = DP, Number = 1, Type = Integer, Description = "Общая глубина">## INFO = <ID = AF, Number = A, Type = Float, Description = "Allele Frequency">## INFO = <ID = AA, Number = 1, Type = String, Description = "Ancestral Allele">## INFO = <ID = DB, Number = 0, Type = Flag, Description = "членство в dbSNP, сборка 129">## INFO = <ID = H2, Number = 0, Type = Flag, Description = "членство в HapMap2">## FILTER = <ID = q10, Description = "Качество ниже 10">## FILTER = <ID = s50, Description = "Менее 50% образцов содержат данные">## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype">## FORMAT = <ID = GQ, Number = 1, Type = Integer, Description = "Качество генотипа">## FORMAT = <ID = DP, Number = 1, Type = Integer, Description = "Глубина чтения">## FORMAT = <ID = HQ, Number = 2, Type = Integer, Description = "Качество гаплотипа">#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA0000320 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,.20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0,017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58,50 0 | 1: 3: 5: 65,3 0/0: 41: 320 1110696 rs6040355 AG, T 67 PASS NS = 2; DP = 10; AF = 0,333,0,667; AA = T; DB GT: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2 : 0: 18,2 2/2: 35: 420 1230237. Т. 47 PASS NS = 3; DP = 13; AA = T GT: GQ: DP: HQ 0 | 0: 54: 7: 56,60 0 | 0: 48: 4: 51,51 0/0: 61: 220 1234567 микросат1 GTC G, GTCT 50 PASS NS = 3; DP = 9; AA = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3
Заголовок VCF [ править ]
Заголовок начинает файл и предоставляет метаданные, описывающие тело файла. Строки заголовков начинаются с символа # . Специальные ключевые слова в заголовке обозначаются ## . Рекомендуемые ключевые слова включают формат файла , дату файла и ссылку .
Заголовок содержит ключевые слова, которые необязательно семантически и синтаксически описывают поля, используемые в теле файла, в частности INFO, FILTER и FORMAT (см. Ниже).
Столбцы VCF [ править ]
Тело VCF следует за заголовком и представляет собой табуляцию, разделенную на 8 обязательных столбцов и неограниченное количество дополнительных столбцов, которые могут использоваться для записи другой информации об образце (ах). Когда используются дополнительные столбцы, первый дополнительный столбец используется для описания формата данных в следующих столбцах.
Имя | Краткое описание (подробности см. В спецификации). | |
---|---|---|
1 | CHROM | Имя последовательности (обычно хромосомы), в которой вызывается вариация. Эта последовательность обычно известна как «эталонная последовательность», то есть последовательность, относительно которой изменяется данный образец. |
2 | POS | Позиция вариации данной последовательности, отсчитываемая от 1. |
3 | Я БЫ | Идентификатор варианта, например, идентификатор dbSNP rs, или, если он неизвестен, ".". Несколько идентификаторов следует разделять точкой с запятой без пробелов. |
4 | REF | Базовая база (или базы в случае отступа ) в данной позиции в заданной эталонной последовательности. |
5 | ALT | Список альтернативных аллелей на этой позиции. |
6 | QUAL | Оценка качества, связанная с выводом данных аллелей. |
7 | ФИЛЬТР | Флаг, указывающий, какой из заданного набора фильтров отклонение прошло. |
8 | ИНФОРМАЦИЯ | Расширяемый список пар (полей) ключ-значение, описывающих вариант. Ниже приведены некоторые общие поля. Множественные поля разделяются запятой с дополнительными значениями в формате: <key>=<data>[,data] . |
9 | ФОРМАТ | (Необязательно) расширяемый список полей для описания образцов. Ниже приведены некоторые общие поля. |
+ | ОБРАЗЦЫ | Для каждого (необязательного) образца, описанного в файле, указаны значения для полей, перечисленных в FORMAT. |
Общие поля ИНФОРМАЦИИ [ править ]
Разрешены произвольные ключи, хотя следующие подполя зарезервированы (хотя и необязательны): [1]
Имя | Краткое описание |
---|---|
AA | наследственный аллель |
AC | количество аллелей в генотипах для каждого аллеля ALT в том же порядке, что и перечисленные |
AF | частота аллелей для каждого аллеля ALT в том же порядке, что и в списке (используйте это при оценке на основе первичных данных, а не генотипов) |
AN | общее количество аллелей в названных генотипах |
BQ | Базовое качество RMS на этой позиции |
СИГАРА | цепочка сигар, описывающая, как выровнять альтернативный аллель с эталонным аллелем |
БД | членство в dbSNP |
DP | комбинированная глубина по выборкам, например DP = 154 |
КОНЕЦ | конечная позиция варианта, описанного в этой записи (для использования с символическими аллелями) |
H2 | членство в hapmap2 |
H3 | членство в hapmap3 |
MQ | Качество отображения RMS, например MQ = 52 |
MQ0 | Количество чтений MAPQ == 0, покрывающих эту запись |
NS | Количество образцов с данными |
SB | смещение прядей в этой позиции |
СОМАТИЧЕСКИЙ | указывает, что запись является соматической мутацией, для геномики рака |
ПРОВЕРЕНО | подтверждено последующим экспериментом |
1000 г | членство в 1000 геномов |
Общие поля FORMAT [ править ]
Имя | Краткое описание |
---|---|
ОБЪЯВЛЕНИЕ | Глубина чтения для каждого аллеля |
АПД | Считайте глубину для каждого аллеля на прямой цепи |
ADR | Считайте глубину для каждого аллеля на обратной цепи |
DP | Глубина чтения |
EC | Ожидаемое количество альтернативных аллелей |
FT | Фильтр, указывающий, был ли этот генотип «вызван» |
GL | Вероятность генотипа |
GP | Апостериорные вероятности генотипа |
GQ | Условное качество генотипа |
GT | Генотип |
HQ | Качество гаплотипа |
MQ | Качество отображения RMS |
PL | Вероятность генотипа в масштабе Phred с округлением до ближайшего целого числа |
PQ | Качество фазировки |
PS | Набор фаз |
См. Также [ править ]
- Формат FASTA , используемый для представления последовательностей генома.
- Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
- Формат SAM , используемый для представления считываний секвенатора генома, которые были выровнены с последовательностями генома.
- Формат GVF (формат вариации генома), расширение, основанное на формате GFF3 .
- Genozip [7] [8] компрессор для VCF и других форматов геномных файлов.
Спецификация VCF больше не поддерживается Проектом 1000 Genomes. Группа, возглавляющая управление и расширение формата, - это группа разработчиков формата файлов Large Scale Genomics Work Stream Глобального альянса за геномику и здоровье (GA4GH) , [9] http://ga4gh.org/#/fileformats-team
Ссылки [ править ]
- ^ a b «Спецификация VCF» (PDF) . Дата обращения 20 октября 2016 .
- ^ «Спецификации SAM / BAM и связанных с ними форматов файлов секвенирования с высокой пропускной способностью» . Проверено 24 июня 2014 года .
- ^ «Кодирование структурных вариантов в VCF (Variant Call Format) версия 4.0 | 1000 геномов» . Проверено 20 октября 2016 года .
- ^ "GVCF - формат вызова геномного варианта" . ГАТК . Широкий институт.
- ^ "VCFtools от Github.io" . Проверено 20 октября 2016 года .
- ^ "BCFtools" .
- ^ Лан, Д. и другие. (2021) Genozip: универсальный расширяемый компрессор геномных данных, Bioinformatics
- ^ Лан, Д. и другие. (2020) genozip: быстрый и эффективный инструмент для сжатия файлов VCF. Биоинформатика, 36, 4091–4092.
- ^ "Био-IT Мир" . www.bio-itworld.com . Проверено 26 октября 2018 .
Внешние ссылки [ править ]
- Объяснение формата в виде изображения
- Оссола, Александра (20 марта 2015 г.). «Гонка за создание поисковой системы для вашей ДНК» . IEEE Spectrum . Проверено 22 марта 2015 года .