Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Формат Variant Call Format ( VCF ) определяет формат текстового файла, используемого в биоинформатике для хранения вариаций последовательности генов . Формат был разработан с появлением крупномасштабных проектов генотипирования и секвенирования ДНК , таких как проект « 1000 геномов» . В существующих форматах генетических данных, таких как общий формат функций (GFF), хранятся все генетические данные, большая часть которых является избыточной, поскольку они будут совместно использоваться в геномах. При использовании формата вызова вариантов необходимо хранить только варианты вместе со ссылочным геномом.

Стандарт в настоящее время находится в версии 4.3, [1] [2], хотя Проект 1000 Genomes разработал свою собственную спецификацию для структурных вариаций, таких как дублирование, которые нелегко включить в существующую схему. [3] Существует также расширенный формат Genomic VCF ( gVCF ), который включает дополнительную информацию о «блоках», соответствующих эталону, и их качествам. [4] Также доступен набор инструментов для редактирования файлов и управления ими. [5] [6]

Пример [ править ]

## fileformat = VCFv4.3## fileDate = 20090805## source = myImputationProgramV3.1## ссылка = файл: ///seq/references/1000GenomesPilot-NCBI36.fasta## contig = <ID = 20, длина = 62435964, сборка = B36, md5 = f126cdf8a6e0c7f379d618ff66beb2da, разновидности = "Homo sapiens", taxonomy = x>## фазировка = частичная## INFO = <ID = NS, Number = 1, Type = Integer, Description = "Количество выборок с данными">## INFO = <ID = DP, Number = 1, Type = Integer, Description = "Общая глубина">## INFO = <ID = AF, Number = A, Type = Float, Description = "Allele Frequency">## INFO = <ID = AA, Number = 1, Type = String, Description = "Ancestral Allele">## INFO = <ID = DB, Number = 0, Type = Flag, Description = "членство в dbSNP, сборка 129">## INFO = <ID = H2, Number = 0, Type = Flag, Description = "членство в HapMap2">## FILTER = <ID = q10, Description = "Качество ниже 10">## FILTER = <ID = s50, Description = "Менее 50% образцов содержат данные">## FORMAT = <ID = GT, Number = 1, Type = String, Description = "Genotype">## FORMAT = <ID = GQ, Number = 1, Type = Integer, Description = "Качество генотипа">## FORMAT = <ID = DP, Number = 1, Type = Integer, Description = "Глубина чтения">## FORMAT = <ID = HQ, Number = 2, Type = Integer, Description = "Качество гаплотипа">#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA0000320 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,.20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0,017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58,50 0 | 1: 3: 5: 65,3 0/0: 41: 320 1110696 rs6040355 AG, T 67 PASS NS = 2; DP = 10; AF = 0,333,0,667; AA = T; DB GT: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2 : 0: 18,2 2/2: 35: 420 1230237. Т. 47 PASS NS = 3; DP = 13; AA = T GT: GQ: DP: HQ 0 | 0: 54: 7: 56,60 0 | 0: 48: 4: 51,51 0/0: 61: 220 1234567 микросат1 GTC G, GTCT 50 PASS NS = 3; DP = 9; AA = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3

Заголовок VCF [ править ]

Заголовок начинает файл и предоставляет метаданные, описывающие тело файла. Строки заголовков начинаются с символа # . Специальные ключевые слова в заголовке обозначаются ## . Рекомендуемые ключевые слова включают формат файла , дату файла и ссылку .

Заголовок содержит ключевые слова, которые необязательно семантически и синтаксически описывают поля, используемые в теле файла, в частности INFO, FILTER и FORMAT (см. Ниже).

Столбцы VCF [ править ]

Тело VCF следует за заголовком и представляет собой табуляцию, разделенную на 8 обязательных столбцов и неограниченное количество дополнительных столбцов, которые могут использоваться для записи другой информации об образце (ах). Когда используются дополнительные столбцы, первый дополнительный столбец используется для описания формата данных в следующих столбцах.

Общие поля ИНФОРМАЦИИ [ править ]

Разрешены произвольные ключи, хотя следующие подполя зарезервированы (хотя и необязательны): [1]

Общие поля FORMAT [ править ]

См. Также [ править ]

  • Формат FASTA , используемый для представления последовательностей генома.
  • Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
  • Формат SAM , используемый для представления считываний секвенатора генома, которые были выровнены с последовательностями генома.
  • Формат GVF (формат вариации генома), расширение, основанное на формате GFF3 .
  • Genozip [7] [8] компрессор для VCF и других форматов геномных файлов.

Спецификация VCF больше не поддерживается Проектом 1000 Genomes. Группа, возглавляющая управление и расширение формата, - это группа разработчиков формата файлов Large Scale Genomics Work Stream Глобального альянса за геномику и здоровье (GA4GH) , [9] http://ga4gh.org/#/fileformats-team

Ссылки [ править ]

  1. ^ a b «Спецификация VCF» (PDF) . Дата обращения 20 октября 2016 .
  2. ^ «Спецификации SAM / BAM и связанных с ними форматов файлов секвенирования с высокой пропускной способностью» . Проверено 24 июня 2014 года .
  3. ^ «Кодирование структурных вариантов в VCF (Variant Call Format) версия 4.0 | 1000 геномов» . Проверено 20 октября 2016 года .
  4. ^ "GVCF - формат вызова геномного варианта" . ГАТК . Широкий институт.
  5. ^ "VCFtools от Github.io" . Проверено 20 октября 2016 года .
  6. ^ "BCFtools" .
  7. ^ Лан, Д. и другие. (2021) Genozip: универсальный расширяемый компрессор геномных данных, Bioinformatics
  8. ^ Лан, Д. и другие. (2020) genozip: быстрый и эффективный инструмент для сжатия файлов VCF. Биоинформатика, 36, 4091–4092.
  9. ^ "Био-IT Мир" . www.bio-itworld.com . Проверено 26 октября 2018 .

Внешние ссылки [ править ]

  • Объяснение формата в виде изображения
  • Оссола, Александра (20 марта 2015 г.). «Гонка за создание поисковой системы для вашей ДНК» . IEEE Spectrum . Проверено 22 марта 2015 года .