Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску
Показатели качества Phred показаны на трассировке последовательности ДНК

Оценка качества Phred - это мера качества идентификации азотистых оснований, полученных с помощью автоматического секвенирования ДНК . [1] [2] Первоначально он был разработан для вызова базы Phred, чтобы помочь в автоматизации секвенирования ДНК в проекте « Геном человека» . Оценка качества Phred присваивается каждому вызову нуклеотидных оснований в трассировках автоматического секвенсора. [3] [2] Формат FASTQкодирует оценки phred как символы ASCII вместе с последовательностями чтения. Показатели качества Phred стали широко использоваться для характеристики качества последовательностей ДНК и могут использоваться для сравнения эффективности различных методов секвенирования. Возможно, наиболее важным применением показателей качества Phred является автоматическое определение точных согласованных последовательностей на основе качества .

Определение [ править ]

Показатели качества Phred определяются как свойство, логарифмически связанное с вероятностями ошибок при вызове базы . [2]

или же

Например, если Фред присваивает базе оценку качества 30, вероятность того, что эта база называется неправильно, составляет 1 из 1000.

Оценка качества phred - это отрицательное отношение вероятности ошибки к эталонному уровню, выраженное в децибелах (дБ) .

История [ править ]

Идея оценок качества последовательности восходит к первоначальному описанию формата файла SCF , сделанному группой Стадена в 1992 году. [4] В 1995 году Бонфилд и Стаден предложили метод использования базовых показателей качества для повышения точности консенсуса. последовательности в проектах секвенирования ДНК. [5]

Однако первые попытки разработать базовые показатели качества [6] [7] имели лишь ограниченный успех.

Первой программой, разработавшей точные и мощные базовые оценки качества, была программа Phred . Фред смог вычислить высокоточные показатели качества, которые были логарифмически связаны с вероятностями ошибок. Phred был быстро принят во всех основных центрах секвенирования генома, а также во многих других лабораториях; подавляющее большинство последовательностей ДНК, полученных в ходе проекта «Геном человека», было обработано с помощью Phred.

После того, как оценка качества Phred стала обязательным стандартом при секвенировании ДНК, другие производители инструментов для секвенирования ДНК, в том числе Li-Cor и ABI , разработали аналогичные показатели качества для своего программного обеспечения для определения последовательности . [8]

Методы [ править ]

Подход Фреда к базовому вызову и подсчету показателей качества был описан Ewing et al. . Чтобы определить показатели качества, Фред сначала вычисляет несколько параметров, связанных с формой пика и разрешением пика на каждом основании. Затем Phred использует эти параметры для поиска соответствующего показателя качества в огромных справочных таблицах. Эти справочные таблицы были сгенерированы из трассировок последовательностей, где была известна правильная последовательность, и жестко запрограммированы в Phred; разные таблицы поиска используются для разных химикатов и машин секвенирования. Оценка точности показателей качества Phred для ряда вариаций химии секвенирования и инструментовки показала, что показатели качества Phred очень точны. [9]

Первоначально Phred был разработан для секвенирующих машин типа «пластинчатый гель», таких как ABI373. При первоначальной разработке Phred имел более низкую частоту ошибок базового вызова, чем базовое программное обеспечение для вызовов, производимое производителем, которое также не давало оценок качества. Однако Фред был лишь частично адаптирован к капиллярным секвенаторам ДНК, которые стали популярными позже. Напротив, производители инструментов, такие как ABI, продолжали адаптировать свои базовые программные изменения к изменениям в химии секвенирования и добавили возможность создавать оценки качества, подобные Phred. Таким образом, потребность в использовании Phred для определения оснований следов секвенирования ДНК уменьшилась, и использование текущих версий программного обеспечения производителя часто может дать более точные результаты.

Приложения [ править ]

Показатели качества Phred используются для оценки качества последовательности, распознавания и удаления низкокачественной последовательности (отсечения концов) и определения точных согласованных последовательностей.

Первоначально оценки качества Phred в основном использовались программой сборки последовательностей Phrap . Phrap обычно использовался в некоторых из крупнейших проектов секвенирования в рамках проекта по секвенированию генома человека и в настоящее время является одной из наиболее широко используемых программ сборки последовательностей ДНК в биотехнологической промышленности. Phrap использует показатели качества Phred для определения высокоточных согласованных последовательностей и оценки качества согласованных последовательностей. Phrap также использует показатели качества Phred, чтобы оценить, возникнут ли расхождения между двумя перекрывающимися последовательностями из-за случайных ошибок или из-за разных копий повторяющейся последовательности.

В рамках проекта «Геном человека» наиболее важным использованием показателей качества Phred было автоматическое определение согласованных последовательностей. До Фреда и Фрапа ученым приходилось внимательно изучать расхождения между перекрывающимися фрагментами ДНК; часто это связано с ручным определением последовательности наивысшего качества и ручным редактированием любых ошибок. Использование Phrap показателей качества по методу Phred эффективно автоматизирует поиск согласованной последовательности высочайшего качества; в большинстве случаев это полностью исключает необходимость любого ручного редактирования. В результате предполагаемая частота ошибок в сборках, которые были созданы автоматически с помощью Phred и Phrap, обычно значительно ниже, чем частота ошибок для последовательности, отредактированной вручную.

В 2009 году многие часто используемые программные пакеты используют оценки качества Phred, хотя и в разной степени. Такие программы, как Sequencher, используют показатели качества для отображения, обрезки концов и определения консенсуса; другие программы, такие как CodonCode Aligner, также реализуют методы консенсуса на основе качества.

Сжатие [ править ]

Показатели качества обычно хранятся вместе с нуклеотидной последовательностью в широко распространенном формате FASTQ . На них приходится около половины необходимого дискового пространства в формате FASTQ (до сжатия), и поэтому сжатие значений качества может значительно снизить требования к хранению и ускорить анализ и передачу данных секвенирования. В последнее время в литературе рассматриваются как сжатие без потерь, так и сжатие с потерями . Например, алгоритм QualComp [10]выполняет сжатие с потерями со скоростью (количество бит на значение качества), заданной пользователем. Основываясь на результатах теории искажения скорости, он распределяет количество битов, чтобы минимизировать MSE (среднеквадратичную ошибку) между исходным (несжатым) и восстановленным (после сжатия) значениями качества. Другие алгоритмы сжатия значений качества включают в себя SCALCE, [11] Fastqz [12] и недавно QVZ, [13] AQUa [14] и стандарт MPEG-G, который в настоящее время разрабатывается MPEG.рабочая группа по стандартизации. Оба являются алгоритмами сжатия без потерь, которые обеспечивают дополнительный подход к управляемому преобразованию с потерями. Например, SCALCE уменьшает размер алфавита на основании наблюдения, что «соседние» значения качества в целом похожи.

Ссылки [ править ]

  1. ^ Юинг Б; Hillier L ; Wendl MC; Грин П. (1998). «Базовый вызов трассировок автоматизированного секвенсора с использованием phred. I. Оценка точности» . Геномные исследования . 8 (3): 175–185. DOI : 10.1101 / gr.8.3.175 . PMID  9521921 .
  2. ^ a b c Юинг Б., Грин П. (1998). «Базовый вызов трассировок автоматического секвенсора с использованием phred. II. Вероятности ошибок» . Геномные исследования . 8 (3): 186–194. DOI : 10.1101 / gr.8.3.186 . PMID 9521922 . 
  3. Перейти ↑ Ewing B, Hillier L , Wendl MC , Green P (1998). «Базовый вызов трассировок автоматизированного секвенсора с использованием phred. I. Оценка точности» . Геномные исследования . 8 (3): 175–185. DOI : 10.1101 / gr.8.3.175 . PMID 9521921 . CS1 maint: несколько имен: список авторов ( ссылка )
  4. ^ Уважаемый S, Staden R (1992). «Стандартный формат файла для данных с инструментов секвенирования ДНК». Последовательность ДНК . 3 (2): 107–110. DOI : 10.3109 / 10425179209034003 . PMID 1457811 . 
  5. ^ Bonfield JK, Стаден R (25 апреля 1995). «Применение численных оценок точности определения базы для проектов по секвенированию ДНК» . Исследования нуклеиновых кислот . 23 (8): 1406–1410. DOI : 10.1093 / NAR / 23.8.1406 . PMC 306869 . PMID 7753633 .  
  6. ^ Черчилль GA, Waterman MS (сентябрь 1992 г.). «Точность последовательностей ДНК: оценка качества последовательности». Геномика . 14 (1): 89–98. DOI : 10.1016 / S0888-7543 (05) 80288-5 . hdl : 1813/31678 . PMID 1358801 . 
  7. Лоуренс CB, Соловьев В.В. (1994). «Присвоение вероятности ошибки, связанной с положением, данным первичной последовательности ДНК» . Исследования нуклеиновых кислот . 22 (7): 1272–1280. DOI : 10.1093 / NAR / 22.7.1272 . PMC 523653 . PMID 8165143 .  
  8. ^ «Технологии жизни - США» (PDF) .
  9. ^ Richterich P (1998). «Оценка ошибок в« сырых »последовательностях ДНК: исследование для проверки» . Геномные исследования . 8 (3): 251–259. DOI : 10.1101 / gr.8.3.251 . PMC 310698 . PMID 9521928 .  
  10. ^ Очоа, Идоя; Аснани, Химаншу; Бхарадиа, Динеш; Чоудхури, Майнак; Вайсман, Цачи; Йона, Голаны (2013). «Qual Comp : новый компрессор с потерями для оценки качества, основанный на теории искажения скорости» . BMC Bioinformatics . 14 : 187. DOI : 10,1186 / 1471-2105-14-187 . PMC 3698011 . PMID 23758828 .  
  11. ^ Hach, F; Numanagic, I; Алкан, C; Сахиналп, SC (2012). «SCALCE: алгоритмы сжатия последовательности с усилением с использованием локально согласованного кодирования» . Биоинформатика . 28 (23): 3051–3057. DOI : 10.1093 / биоинформатики / bts593 . PMC 3509486 . PMID 23047557 .  
  12. ^ "fastqz - компрессор FASTQ" .
  13. ^ Малиса, Грег; Hernaez, Mikel; Очоа, Идоя; Рао, Милинд; Ганесан, Картик; Вайсман, Цачи (01.10.2015). «QVZ: сжатие значений качества с потерями» . Биоинформатика . 31 (19): 3122–3129. DOI : 10.1093 / биоинформатики / btv330 . ISSN 1367-4803 . PMC 5856090 . PMID 26026138 .   
  14. ^ Paridaens, Том; Ван Валлендель, Гленн; Де Неве, Уэсли; Ламберт, Питер (2018). «AQUa: адаптивная структура для сжатия показателей качества секвенирования с функцией произвольного доступа» . Биоинформатика . 34 (3): 425–433. DOI : 10.1093 / биоинформатики / btx607 . PMID 29028894 . 

Внешние ссылки [ править ]

  • Длительные чтения с помощью KB Basecaller Сравнение точности Phred с конкурирующей программой, ABI's KB Basecaller
  • Домашняя страница Лаборатории Фила Грина Фрапа.