Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Формат FASTQ - это текстовый формат для хранения как биологической последовательности (обычно нуклеотидной последовательности ), так и соответствующих показателей качества. И буква последовательности, и показатель качества для краткости кодируются одним символом ASCII .

Первоначально он был разработан в Wellcome Trust Sanger Institute для объединения последовательности в формате FASTA и ее качественных данных, но недавно стал де-факто стандартом для хранения результатов высокопроизводительных инструментов секвенирования, таких как анализатор генома Illumina . [1]

Форматировать [ редактировать ]

Файл FASTQ обычно использует четыре строки на последовательность.

  • Строка 1 начинается с символа «@», за ней следует идентификатор последовательности и необязательное описание (например, строка заголовка FASTA ).
  • Строка 2 - это необработанные буквы последовательности.
  • Строка 3 начинается с символа «+» и, возможно, сопровождается тем же идентификатором последовательности (и любым описанием) снова.
  • Строка 4 кодирует значения качества для последовательности в Строке 2 и должна содержать то же количество символов, что и буквы в последовательности.

Файл FASTQ, содержащий одну последовательность, может выглядеть так:

@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+! '' * ((((*** +)) %%% ++) (%%%%). 1 *** - + * '')) ** 55CCF >>>>>> 1970C65

Байт, представляющий качество, изменяется от 0x21 (самое низкое качество; '!' В ASCII) до 0x7e (самое высокое качество; '~' в ASCII). Вот символы значения качества в порядке увеличения качества слева направо ( ASCII ):

 ! "# $% & '() * +, -. / 0123456789:; <=>? @ ABCDEFGHIJKLMNOPQRSTUVWXYZ [\] ^ _` abcdefghijklmnopqrstuvwxyz {|} ~

Исходные файлы Sanger FASTQ также позволяли обертывать последовательность и качественные строки (разбивать на несколько строк), но это обычно не рекомендуется [ необходима цитата ], поскольку это может усложнить синтаксический анализ из-за неудачного выбора «@» и «+» в качестве маркеров (эти символы также могут встречаться в строке качества).

Идентификаторы последовательности Illumina [ править ]

Последовательности из программного обеспечения Illumina используют систематический идентификатор:

@ HWUSI-EAS100R: 6: 73: 941: 1973 # 0/1

Версии конвейера Illumina, начиная с 1.4, похоже, используют #NNNNNN вместо # 0 для идентификатора мультиплекса, где NNNNNN - это последовательность тега мультиплексирования.

В Casava 1.8 формат строки @ изменился:

@ EAS139: 136: FC706VJ: 2: 2104: 15343: 197393 1: Y: 18: ATCACG

Обратите внимание, что более поздние версии программного обеспечения Illumina выводят номер образца (взятый из таблицы образцов) вместо последовательности индекса. Например, в первом образце пакета может появиться следующий заголовок:

@ EAS139: 136: FC706VJ: 2: 2104: 15343: 197393 1: N: 18: 1

Архив чтения последовательности NCBI [ править ]

Файлы FASTQ из архива чтения последовательностей INSDC часто включают описание, например

@ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 длина = 36GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC+ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 длина = 36IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

В этом примере есть идентификатор, присвоенный NCBI, а описание содержит исходный идентификатор от Solexa / Illumina (как описано выше) плюс длину чтения. Секвенирование выполняли в режиме парных концов (размер вставки ~ 500 п.н.), см. SRR001666 . Формат вывода по умолчанию fastq-dump создает целые пятна, содержащие любые технические чтения и, как правило, одно- или парные биологические чтения.

$ Fastq-dump.2.9.0 -Z -X 2 SRR001666 Чтение 2 места для SRR001666 написаны 2 пятна для SRR001666 @ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 длина = 72 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACCAAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA + SRR001666.1 071112_SLXA-EAS1_s_7 : 5: 1: 817: 345 длина = 72 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9ICIIIIIIIIIIIIIIIIIIIIDIIIIIII> IIIIII / @ SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 длина = 72 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGAAGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT + SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 длина = 72 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBIIIIIIIIIIIIIIIIIIIIIIIGII> IIIII-I) 8I

Современное использование FASTQ почти всегда включает в себя разделение пятна на его биологические чтения, как описано в метаданных, предоставленных отправителем:

$ fastq-dump -X 2 SRR001666 --split-3 Прочитать 2 точки для SRR001666 Написано 2 точки для SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @ SRR001666.1 071112_SLXA-EAS1_s_s 1: 817: 345 длина = 36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC + SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 длина = 36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @ SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 длина = 36 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA + SRR001666. 2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 длина = 36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI==> SRR001666_2.fastq <== @ SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 длина = 36 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA + SRR001666.1 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 длина = 36 IIIIIIIIIIIIIIIIIIIIDIIIIIII> IIIIII / @ SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 длина = 36 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT + SRR001666.2 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 IIIIIIIIII) длина 8 IIIIIIII)

Если fastq-dump присутствует в архиве, он может попытаться восстановить прочитанные имена в исходный формат. NCBI не хранит исходные имена чтения по умолчанию:

$ fastq-dump -X 2 SRR001666 --split-3 --origfmt Прочитать 2 точки для SRR001666 Записано 2 точки для SRR001666 $ head SRR001666_1.fastq SRR001666_2.fastq ==> SRR001666_1.fastq <== @ 071112_SLXA-EAS1_s_s 1: 817: 345 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC + 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @ 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA + 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI==> SRR001666_2.fastq <== @ 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 AAGTTACCCTTAACAACTTAAGGGTTTTCAAATAGA + 071112_SLXA-EAS1_s_7: 5: 1: 817: 345 IIIIIIIIIIIIIIIIIIIIDIIIIIII> IIIIII / @ 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 AGCAGAAGTCGATGATAATACGCGTCGTTTTATCAT + 071112_SLXA-EAS1_s_7: 5: 1: 801: 338 IIIIIIIIIIIIIIIIIIIIIIGII> IIIII-I) 8I

В приведенном выше примере использовались исходные имена чтения, а не присоединенное имя чтения. Запуски доступа NCBI и содержащиеся в них чтения. Исходные имена чтения, назначаемые секвенсорами, могут функционировать как локальные уникальные идентификаторы чтения и передавать ровно столько же информации, сколько серийный номер. Приведенные выше идентификаторы были присвоены алгоритмически на основе информации о прогоне и геометрических координат. Ранние загрузчики SRA анализировали эти идентификаторы и хранили свои разложенные компоненты внутри. NCBI прекратил записывать прочитанные имена, потому что они часто изменяются по сравнению с исходным форматом поставщиков, чтобы связать некоторую дополнительную информацию, значимую для конкретного конвейера обработки, и это вызвало нарушения формата имени, что привело к большому количеству отклоненных представлений. Без четкой схемы для имен чтения,их функция остается функцией уникального идентификатора чтения, передавая тот же объем информации, что и серийный номер чтения. Увидеть различныеВопросы SRA Toolkit для подробностей и обсуждения.

Также обратите внимание, что fastq-dump преобразует эти данные FASTQ из исходной кодировки Solexa / Illumina в стандарт Sanger (см. Кодировки ниже). Это связано с тем, что SRA служит хранилищем информации NGS, а не форматом . Различные инструменты * -dump могут создавать данные в нескольких форматах из одного и того же источника. Требования для этого были продиктованы пользователями в течение нескольких лет, при этом большая часть раннего спроса исходила от проекта 1000 Genomes Project .

Варианты [ править ]

Качество [ править ]

Значение качества Q - это целочисленное отображение p (т. Е. Вероятность того, что соответствующий базовый вызов неверен). Использовались два разных уравнения. Первый - это стандартный вариант Сэнгера для оценки надежности базового вызова, также известный как показатель качества Phred :

Конвейер Solexa (то есть программное обеспечение, поставляемое с анализатором генома Illumina) ранее использовал другое отображение, кодируя шансы p / (1- p ) вместо вероятности p :

Хотя оба сопоставления асимптотически идентичны при более высоких значениях качества, они различаются на более низких уровнях качества (т. Е. Приблизительно p > 0,05 или, что эквивалентно, Q <13).

Связь между Q и p с использованием уравнений Сенгера (красный) и Solexa (черный) (описанных выше). Вертикальная пунктирная линия означает p = 0,05 или, что эквивалентно, Q ≈ 13.

Иногда возникали разногласия по поводу того, какое отображение на самом деле использует Illumina. В руководстве пользователя (Приложение B, стр. 122) для версии 1.4 конвейера Illumina указано, что: «Оценка определяется как Q = 10 * log10 (p / (1-p)) [ sic ], где p - вероятность вызов базы, соответствующий рассматриваемой базе ". [2] Оглядываясь назад, кажется, что эта запись в руководстве была ошибкой. В руководстве пользователя (Что нового, стр. 5) для версии 1.5 конвейера Illumina вместо этого приводится следующее описание: «Важные изменения в конвейере v1.3 [ sic ]. Схема оценки качества была изменена на схему оценки Phred [то есть Sanger]. , закодированный как ASCII-символ путем добавления 64 к значению Phred. Оценка Phred основы:, где eэто оценочная вероятность ошибочного основания. [3]

Кодировка [ править ]

  • Формат Sanger может кодировать оценку качества Phred от 0 до 93 с использованием ASCII от 33 до 126 (хотя в необработанных данных чтения оценка качества Phred редко превышает 60, более высокие оценки возможны в сборках или картах чтения). Также используется в формате SAM. [4] Согласно объявлению на форуме seqanswers.com, к концу февраля 2011 г. последняя версия (1.8) конвейера CASAVA от Illumina будет напрямую создавать fastq в формате Sanger. [5]
  • Чтения PacBio HiFi, которые обычно хранятся в формате SAM / BAM, используют соглашение Сэнгера: оценки качества Phred от 0 до 93 кодируются с использованием ASCII от 33 до 126. Необработанные подпотоки PacBio используют то же соглашение, но обычно присваивают базовое качество заполнителя (Q0 ) ко всем читаемым базам. [6]
  • Формат Solexa / Illumina 1.0 может кодировать показатель качества Solexa / Illumina от -5 до 62 с использованием ASCII от 59 до 126 (хотя в необработанных данных чтения ожидаются только оценки Solexa от -5 до 40)
  • Начиная с Illumina 1.3 и до Illumina 1.8, формат кодировал оценку качества Phred от 0 до 62 с использованием ASCII от 64 до 126 (хотя в необработанных данных чтения ожидаются только оценки Phred от 0 до 40).
  • Начиная с Illumina 1.5 и до Illumina 1.8, оценки Phred от 0 до 2 имеют немного другое значение. Значения 0 и 1 больше не используются, а значение 2, закодированное ASCII 66 «B», также используется в конце чтения как индикатор контроля качества сегмента чтения . [7] В руководстве Illumina [8] (стр. 30) говорится следующее: Если считывание заканчивается сегментом в основном низкого качества (Q15 или ниже), то все значения качества в сегменте заменяются значением 2 (кодируется буквой B в текстовой кодировке показателей качества Illumina) ... Этот индикатор Q2 не предсказывает конкретную частоту ошибок, а скорее указывает на то, что конкретная конечная часть считывания не должна использоваться в дальнейших анализах. Кроме того, показатель качества, закодированный как буква «B», может иметь место внутри операций чтения, по крайней мере, до версии 1.6 конвейера, как показано в следующем примере:
@ HWI-EAS209_0006_FC706VJ: 5: 58: 5894: 21141 # ATCACG / 1TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTGTTGGGGGAGACATTTTTGTGATTGCCTTGAT+ HWI-EAS209_0006_FC706VJ: 5: 58: 5894: 21141 # ATCACG / 1efcfffffcfeefffcffffffddf`feed] `] _Ba _ ^ __ [YBBBBBBBBBBRTT \]] [] dddd`ddd ^ dddadd ^ BBBBBBBBBBBBBBBBBBBBBBBBBB

Была предложена альтернативная интерпретация этой кодировки ASCII. [9] Кроме того, при запуске Illumina с использованием элементов управления PhiX символ «B» обозначает «неизвестный показатель качества». Частота ошибок при чтении «B» была примерно на 3 балла по шкале phred ниже среднего наблюдаемого балла для данного прогона.

  • Начиная с Illumina 1.8, показатели качества в основном вернулись к использованию формата Sanger (Phred + 33).

Для необработанных чтений диапазон баллов будет зависеть от технологии и используемого основного вызывающего, но обычно будет до 41 для последних исследований химии Illumina. Поскольку максимальная наблюдаемая оценка качества ранее составляла всего 40, различные скрипты и инструменты ломаются, когда они сталкиваются с данными со значениями качества, превышающими 40. Для обработанных чтений оценки могут быть даже выше. Например, значения качества 45 наблюдаются при считывании из службы секвенирования длительного чтения Illumina (ранее Moleculo).

 SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS ................................................. .... .......................... XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ...................... ............................... IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII .................. .... ................................. J JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ ............... ...... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL ........................................... ......... PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPPPP PPPP ! "# $% & '() * +, -. / 0123456789:; <=>? @ ABCDEFGHIJKLMNOPQRSTUVWXYZ [\] ^ _` abcdefghijklmnopqrstuvwxyz {|} ~ | | | | | | 33 59 64 73 104 126 0 ........................ 26 ... 31 .......  40-5 .... 0 ..... ... 9 ............................. 40  0 ........ 9 ...... ....................... 40  3 ..... 9 ................... ........... 41  0,2 ...................... 26 ... 31 ........ 41  0 .................. 20 ........ 30 ........ 40 ........ 50 .... ...................................... 93
 S - Sanger Phred + 33, обычно необработанные чтения (0, 40)  X - Solexa Solexa + 64, обычно необработанные чтения (-5, 40)  I - Illumina 1.3+ Phred + 64, необработанные чтения обычно (0, 40)  J - Illumina 1.5+ Phred + 64, обычно необработанные чтения (3, 41) где 0 = не используется, 1 = не используется, 2 = индикатор контроля качества сегмента чтения (жирный шрифт)  (Примечание: см. Обсуждение выше).  L - Illumina 1.8+ Phred + 33,  обычное чтение обычно (0, 41) P - PacBio Phred + 33, HiFi обычно читает (0, 93)

Цветовое пространство [ править ]

Для данных SOLiD последовательность находится в цветовом пространстве, за исключением первой позиции. Значения качества соответствуют формату Sanger. Инструменты выравнивания различаются по своей предпочтительной версии значений качества: некоторые включают оценку качества (установленную на 0, т. Е. «!») Для ведущего нуклеотида, другие - нет. Архив чтения последовательности включает этот показатель качества.

Моделирование [ править ]

К моделированию чтения FASTQ подошли несколько инструментов. [10] [11] Сравнение этих инструментов можно увидеть здесь. [12]

Сжатие [ править ]

Общие компрессоры [ править ]

Инструменты общего назначения, такие как Gzip и bzip2, рассматривают FASTQ как простой текстовый файл и приводят к неоптимальным коэффициентам сжатия. Архив чтения последовательности NCBI кодирует метаданные с использованием схемы LZ-77. Общие компрессоры FASTQ обычно сжимают отдельные поля (считанные имена, последовательности, комментарии и оценки качества) в файле FASTQ отдельно; к ним относятся Genozip, [13] DSRC и DSRC2, FQC, LFQC, Fqzcomp и Slimfastq.

Читает [ редактировать ]

Наличие эталонного генома удобно, потому что тогда вместо хранения самих нуклеотидных последовательностей можно просто выровнять чтения с эталонным геномом и сохранить позиции (указатели) и несовпадения; указатели затем могут быть отсортированы в соответствии с их порядком в эталонной последовательности и закодированы, например, с кодированием длин серий. Когда охват или содержание повторов в секвенированном геноме велико, это приводит к высокой степени сжатия. В отличие от форматов SAM / BAM, файлы FASTQ не определяют эталонный геном. Компрессоры FASTQ на основе выравнивания поддерживают использование предоставленных пользователем или созданных de novo справочников: LW-FQZip использует предоставленный справочный геном, а Quip, Leon, k-Path и KIC выполняютde novo с использованиемподхода, основанного на графах де Брейна . Genozip [13] может дополнительно использовать ссылку, если пользователь предоставляет ее, которая может быть справочным файлом для одного или нескольких видов.

Явное отображение чтения и сборка de novo обычно выполняются медленно. Компрессоры FASTQ на основе переупорядочения сначала считывают кластер, которые совместно используют длинные подстроки, а затем независимо сжимают чтения в каждом кластере после их переупорядочения или сборки в более длинные контиги , достигая, возможно, наилучшего компромисса между временем выполнения и степенью сжатия. SCALCE - первый такой инструмент, за ним следуют Orcom и Mince. BEETL использует обобщенное преобразование Барроуза – Уиллера для переупорядочивания операций чтения, а HARC обеспечивает лучшую производительность за счет переупорядочения на основе хешей. AssemblTrie вместо этого собирает операции чтения в деревья ссылок с минимально возможным общим числом символов в ссылке. [14] [15]

Тесты для этих инструментов доступны в [16]

Значения качества [ править ]

Значения качества составляют около половины необходимого дискового пространства в формате FASTQ (до сжатия), поэтому сжатие значений качества может значительно снизить требования к хранению и ускорить анализ и передачу данных секвенирования. В последнее время в литературе рассматриваются как сжатие без потерь, так и сжатие с потерями. Например, алгоритм QualComp [17] выполняет сжатие с потерями со скоростью (количество бит на значение качества), заданной пользователем. Основываясь на результатах теории искажения скорости, он распределяет количество битов так, чтобы минимизировать MSE (среднеквадратичную ошибку) между исходным (несжатым) и восстановленным (после сжатия) значениями качества. Другие алгоритмы сжатия значений качества включают SCALCE [18] и Fastqz.[19] Оба алгоритма сжатия без потерь обеспечивают дополнительный подход к преобразованию с потерями. Например, SCALCE уменьшает размер алфавита на основании наблюдения, что «соседние» значения качества в целом похожи. Для теста см.. [20]

Начиная с HiSeq 2500 Illumina дает возможность выводить крупнозернистые материалы качества в бункеры качества. Разделенные оценки вычисляются непосредственно из таблицы эмпирических показателей качества, которая сама привязана к аппаратному обеспечению, программному обеспечению и химическим характеристикам, которые использовались во время эксперимента по секвенированию. [21]

Genozip [13] использует свой алгоритм DomQual для сжатия бин-оценок качества, например, генерируемых Illumina или собственной опцией Genozip --optimize, которая генерирует бункеры, подобные Illumina.

Шифрование [ править ]

Genozip [13] шифрует файлы FASTQ (а также другие геномные форматы), применяя стандартное шифрование AES на наиболее безопасном уровне 256 бит ( опция --password ).

Cryfa [22] использует шифрование AES и позволяет уплотнять данные помимо шифрования. Он также может обращаться к файлам FASTA.

Расширение файла [ править ]

Для файлов FASTQ нет стандартного расширения , но обычно используются .fq и .fastq.

Конвертеры формата [ править ]

  • Biopython версии 1.51 и выше ( преобразует Sanger, Solexa и Illumina 1.3+)
  • EMBOSS версии 6.1.0, патч 1 и новее (преобразовывает Sanger, Solexa и Illumina 1.3+)
  • BioPerl версии 1.6.1 и выше ( преобразует Sanger, Solexa и Illumina 1.3+)
  • BioRuby версии 1.4.0 и новее (преобразует Sanger, Solexa и Illumina 1.3+)
  • BioJava версии 1.7.1 и выше (взаимно преобразует Sanger, Solexa и Illumina 1.3+)
  • Genozip [13] конвертирует SAM / BAM в FASTQ (используйте: genocat --fastq )

См. Также [ править ]

  • Формат FASTA , используемый для представления последовательностей генома.
  • Формат SAM , используемый для представления считываний секвенатора генома, которые были выровнены с последовательностями генома.
  • Формат GVF (формат вариации генома), расширение, основанное на формате GFF3 .

Ссылки [ править ]

  1. ^ Петух, PJA; Филдс, CJ; Goto, N .; Heuer, ML; Райс, ПМ (2009). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa / Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–1771. DOI : 10.1093 / NAR / gkp1137 . PMC  2847217 . PMID  20015970 .
  2. ^ Руководство пользователя программного обеспечения для анализа последовательности: для конвейерной версии 1.4 и CASAVA версии 1.0 от апреля 2009 г. PDF Архивировано 10 июня 2010 г., на Wayback Machine
  3. ^ Руководство пользователя программного обеспечения для анализа последовательности: для конвейера версии 1.5 и CASAVA версии 1.0 от августа 2009 г. PDF [ мертвая ссылка ]
  4. ^ Формат карты последовательности / выравнивания Версия 1.0 от августа 2009 г. PDF
  5. ^ Тема Seqanswer о skruglyak, от января 2011 сайт
  6. ^ Спецификация формата PacBio BAM 10.0.0 https://pacbiofileformats.readthedocs.io/en/10.0/BAM.html#qual
  7. ^ Показатели качества Illumina, Тобиас Манн, Bioinformatics, Сан-Диего, Illumina http://seqanswers.com/forums/showthread.php?t=4721
  8. ^ Использование программного обеспечения для управления секвенированием анализатора генома, версия 2.6, каталог # SY-960-2601, часть # 15009921, ред. A, ноябрь 2009 г. http://watson.nci.nih.gov/solexa/Using_SCSv2.6_15009921_A.pdf [ мертвая ссылка ]
  9. ^ Сайт проекта SolexaQA
  10. ^ Хуанг, Вт; Ли, Л; Майерс, младший; Март, GT (2012). «ART: симулятор чтения секвенирования нового поколения» . Биоинформатика . 28 (4): 593–4. DOI : 10.1093 / биоинформатики / btr708 . PMC 3278762 . PMID 22199392 .  
  11. ^ Пратас, D; Пинхо, AJ; Родригес, Дж. М. (2014). «XS: симулятор чтения FASTQ» . BMC Research Notes . 7 : 40. DOI : 10,1186 / 1756-0500-7-40 . PMC 3927261 . PMID 24433564 .  
  12. ^ Эскалона, Мерли; Роча, Сара; Посада, Дэвид (2016). «Сравнение инструментов для моделирования геномных данных секвенирования следующего поколения» . Природа Обзоры Генетики . 17 (8): 459–69. DOI : 10.1038 / nrg.2016.57 . PMC 5224698 . PMID 27320129 .  
  13. ^ а б в г д Лан, Д., и др. 2021, Genozip: универсальный расширяемый компрессор геномных данных, Bioinformatics
  14. ^ Ginart А.А., Хи - J, Чжу К, Numanagić я, Courtade Т.А., Sahinalp СК; и другие. (2018). «Оптимальное сжатое представление данных последовательности с высокой пропускной способностью с помощью легкой сборки» . Nat Commun . 9 (1): 566. Bibcode : 2018NatCo ... 9..566G . DOI : 10.1038 / s41467-017-02480-6 . PMC 5805770 . PMID 29422526 .  CS1 maint: несколько имен: список авторов ( ссылка )
  15. ^ Чжу, Кайюань; Нуманагич, Ибрагим; Сахиналп, С. Дженк (2018). «Сжатие геномных данных». Энциклопедия технологий больших данных . Чам: Издательство Springer International. С. 779–783. DOI : 10.1007 / 978-3-319-63962-8_55-1 . ISBN 978-3-319-63962-8.
  16. ^ Нуманагич, Ибрагим; Бонфилд, Джеймс К; Хач, Фараз; Фогес, Ян; Остерманн, Йорн; Альберти, Клаудио; Маттавелли, Марко; Сахиналп, С. Ценк (2016-10-24). «Сравнение высокопроизводительных инструментов сжатия данных секвенирования». Методы природы . ООО "Спрингер Сайенс энд Бизнес Медиа". 13 (12): 1005–1008. DOI : 10.1038 / nmeth.4037 . ISSN 1548-7091 . PMID 27776113 . S2CID 205425373 .   
  17. ^ Очоа, Идоя; Аснани, Химаншу; Бхарадиа, Динеш; Чоудхури, Майнак; Вайсман, Цачи; Йона, Голаны (2013). «Qual Comp : новый компрессор с потерями для оценки качества, основанный на теории искажения скорости» . BMC Bioinformatics . 14 : 187. DOI : 10,1186 / 1471-2105-14-187 . PMC 3698011 . PMID 23758828 .  
  18. ^ Hach, F; Numanagic, I; Алкан, C; Сахиналп, SC (2012). «SCALCE: алгоритмы сжатия последовательности с усилением с использованием локально согласованного кодирования» . Биоинформатика . 28 (23): 3051–7. DOI : 10.1093 / биоинформатики / bts593 . PMC 3509486 . PMID 23047557 .  
  19. ^ fastqz. http://mattmahoney.net/dc/fastqz/
  20. ^ М. Хоссейни, Д. Пратас и А. Пинхо. 2016. Обзор методов сжатия данных для биологических последовательностей. Информация 7 (4) :( 2016): 56
  21. ^ Illumina Tech Note. http://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/technote_understanding_quality_scores.pdf
  22. ^ Хоссеини М, Pratas Д, Пиньо А (2018). Cryfa: надежный инструмент шифрования геномных данных . Биоинформатика . 35 . С. 146–148. DOI : 10.1093 / биоинформатики / bty645 . PMC 6298042 . PMID 30020420 .  

Внешние ссылки [ править ]

  • Веб-страница MAQ, на которой обсуждаются варианты FASTQ
  • Набор инструментов Fastx набор инструментов командной строки для предварительной обработки файлов FASTA / FASTQ с коротким чтением
  • Инструмент контроля качества Fastqc для данных последовательности с высокой пропускной способностью
  • Набор инструментов GTO для данных FASTQ
  • FastQC Fastqc на системе bwHPC-C5 в Германии
  • PRINSEQ можно использовать для контроля качества, а также для фильтрации, переформатирования или обрезки данных последовательности (веб-версии и версии для командной строки)
  • FQStat - параллельная архитектура для очень быстрой оценки показателей качества секвенирования на уровне «дорожки», «образца» и «эксперимента» для выявления и удаления подмножеств образцов с низким качеством.
  • Cryfa может использоваться для безопасного шифрования файлов FASTQ, FASTA, VCF и SAM / BAM (версия для командной строки)