N50, L50 и другие статистические данные

Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Ноябрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

В вычислительной биологии , N50 и L50 являются статистическими данные множествами арендуемой или каркасной длиной. N50 похож на средний или медианном длин, но имеет больший вес , данный более длинные контиг. Он широко используется при сборке генома , особенно в отношении длин контигов в черновой сборке. Есть также связанные U50 , UL50 , UG50 , UG50% , N90 , NG50 , и D50 статистика.

Чтобы обеспечить лучшую оценку выходных данных сборки для наборов данных о вирусах и микробах, следует использовать новую метрику под названием U50 . В U50 идентифицирует уникальные, целевые специфические контиги с использованием эталонного генома в качестве базовой линии, с целью обойти некоторые ограничения , которые присущи N50 метрики. Использование метрики U50 позволяет более точно измерить производительность сборки, анализируя только уникальные, неперекрывающиеся контиги. Большинство вирусных и микробных секвенирований имеют высокий фоновый шум (например, хозяин и другие нецелевые объекты), что способствует искаженному, искаженному значению N50 - это корректируется с помощью U50 . ^[1]

Определение [ править ]

N50 [ править ]

Статистика N50 определяет качество сборки с точки зрения примыкания . Учитывая набор контигов, N50 определяется как длина последовательности самого короткого контига на уровне 50% от общей длины генома. Его можно рассматривать как точку половины массы распределения; количество оснований от всех контигов длиннее N50 будет близко к количеству оснований от всех контигов короче N50. Например, рассмотрим 9 контигов длиной 2, 3, 4, 5, 6, 7, 8, 9 и 10; их сумма равна 54, половина суммы равна 27, и размер генома также составляет 54. 50% этой сборки будет 10 + 9 + 8 = 27 (половина длины последовательности). Таким образом, N50 = 8, то есть размер контига, который вместе с более крупными контигами содержит половину последовательности конкретного генома. Примечание. При сравнении значений N50 из разных сборок, размеры сборки должны быть одинаковыми, чтобы значение N50 было значимым.

N50 можно описать как взвешенную медианную статистику, так что 50% всей сборки содержится в контигах или каркасах, равных или превышающих это значение.

L50 [ править ]

Учитывая набор контигов, каждый со своей длиной, счетчик L50 определяется как наименьшее количество контигов, сумма длин которых составляет половину размера генома. В приведенном выше примере L50 = 3.

N90 [ править ]

Статистики N90 меньше или равна N50 статистики; это длина, для которой набор всех контигов такой или большей длины содержит не менее 90% суммы длин всех контигов.

NG50 [ править ]

Обратите внимание, что N50 рассчитывается в контексте размера сборки, а не размера генома. Следовательно, сравнение значений N50, полученных из ансамблей существенно разной длины, обычно не информативно, даже если для одного и того же генома. Чтобы решить эту проблему, авторы конкурса Assemblathon придумали новую меру под названием NG50 . Статистики NG50 таких же , как N50 , за исключением того , что составляет 50% от известного или предполагаемого размера генома , который должен быть от длины NG50 или дольше. Это позволяет проводить значимые сравнения между различными сборками. В типичном случае, когда размер сборки не превышает размер генома, статистика NG50 не превышает статистику N50.

D50 [ править ]

D50 статистика (также называемый тест D50 ) похожа на N50 статистику по определению , хотя , как правило , не используется для описания генома сборки. Д50 статистика является наименьшее значение d , для которой сумма длин наибольших д длины составляет по меньшей мере 50% от суммы всех длин. ^[2]

U50 [ править ]

U50 - это длина наименьшего контига, так что 50% суммы всех уникальных целевых контигов содержится в контигах размера U50 или больше. ^[1]

UL50 [ править ]

UL50 - это количество контигов, сумма длин которых дает U50.

UG50 [ править ]

UG50 - это длина наименьшего контига, так что 50% эталонного генома содержится в уникальных, специфичных для мишени контигах размером UG50 или больше.

UG50% [ править ]

UG50% - это предполагаемая процентная длина покрытия UG50 в прямой зависимости от длины эталонного генома. Расчет: (100 × (UG50 / длина эталонного генома). UG50% , как процентный показатель, может использоваться для сравнения результатов сборки из различных образцов или исследований.

Примеры [ править ]

Рассмотрим две вымышленные, очень упрощенные сборки генома, A и B, которые происходят от двух разных видов. Сборка A содержит шесть контигов длиной 80 кбайт, 70 кбит, 50, 40, 30 и 20 кбит. Суммарный размер сборки A составляет 290 kbp, длина контига N50 составляет 70 kbp, потому что 80 + 70 больше, чем 50% от 290, а количество контигов L50 составляет 2 контига. Длина контигов сборки B такая же, как и у сборки A, за исключением присутствия двух дополнительных контигов с длинами 10 kbp и 5 kbp. Размер сборки B составляет 305 кб, длина контига N50 снижается до 50 кб, потому что 80 + 70 + 50 больше, чем 50% от 305, а количество контигов L50 составляет 3 контига. Этот пример показывает, что иногда можно увеличить длину N50, просто удалив некоторые из самых коротких контигов или каркасов из сборки.

Если предполагаемый или известный размер генома вымышленного вида A составляет 500 кб, тогда длина контига NG50 составляет 30 кб, потому что 80 + 70 + 50 + 40 + 30 больше 50% от 500. Напротив, если предполагаемый или известный размер генома вида B составляет 350 кб, тогда он имеет длину контига NG50 50 кб, потому что 80 + 70 + 50 больше 50% от 350.

Альтернативное вычисление [ править ]

Математически N50 можно найти для списка L натуральных чисел следующим образом:

Создайте еще один список L ' , который идентичен L , за исключением того, что каждый элемент n в L был заменен n копиями самого себя.
Медиана L» является N50 из L . (10% -ная квантиль из L» является N90 статистики.)

Например: если L = (2, 2, 2, 3, 3, 4, 8, 8), то L ' состоит из шести двойок, шести тройок, четырех четверок и шестнадцати восьмерок. То есть L ' имеет вдвое больше двоек, чем L ; в нем в три раза больше троек, чем в L ; в нем в четыре раза больше четверок; и т. д. Медиана 32-элементного набора L ' - это среднее значение 16-го наименьшего элемента, 4, и 17-го наименьшего элемента, 8, поэтому N50 равно 6. Мы можем видеть, что сумма всех значений в списке L, которые меньше или равны N50 из 6, это 16 = 2 + 2 + 2 + 3 + 3 + 4, а сумма всех значений в списке Lкоторые больше или равны 6, также 16 = 8 + 8. Для сравнения с N50 из 6, обратите внимание, что среднее значение списка L равно 4, а медиана - 3. Чтобы резюмировать более наглядно, мы имеем:

Значения списка L = (2, 2, 2, 3, 3, 4, 8, 8)

Значения нового списка L ' = (2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8)

Ранги значений L ' = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

Ссылки [ править ]

^ ^a b Кастро, Кристина Дж .; Нг, Терри Фей Фан (ноябрь 2017 г.). «U50: новая метрика для измерения выходных данных сборки на основе неперекрывающихся целевых контигов» . Журнал вычислительной биологии . 24 (11): 1071–1080. DOI : 10,1089 / cmb.2017.0013 . PMC 5783553 . PMID 28418726 .
^ Хан, J .; Сандерс, КМ; Wang, C .; Ян, Q .; Wimbish, J .; Бун, BE; Томас, SJ; Леви, SE (25 сентября 2012 г.). Измерение разнообразия репертуара Т-клеток в периферической крови с помощью новых методов мультиплексной ПЦР и высокопроизводительных методов секвенирования . MipTec . Базель, Швейцария. Архивировано из оригинала 5 октября 2015 года . Проверено 5 октября 2015 года .

Арахна вики в Институте Броуда
Миллер, младший; Корен, S; Саттон, Г. (2010). «Алгоритмы сборки для данных секвенирования следующего поколения» . Геномика . 95 (6): 315–327. DOI : 10.1016 / j.ygeno.2010.03.001 . PMC 2874646 . PMID 20211242 .
Earl, D; Брэднэм, К; Сент-Джон, Дж; Дорогая, А; Лин, Д; Фасс, Дж; Ю, ХОК; Буффало, V; Зербино, ДР; Диханс, М; Nguyen, N; Арияратне, ПН; Sung, WK; Нин, З; Haimel, M; Симпсон, JT; Фонсека, штат Северная Каролина; Бироль, I; Стыковка, т.р .; Хо, IY; Рохсар Д.С. Чихи, Р; Lavenier, D; Chapuis, G; Naquin, D; Maillet, N; Schatz, MC; Келли, Д.Р .; Филлиппи, AM; Корен, S (2011). «Assemblathon 1: Конкурсная оценка de novo методов сборки короткого чтения» . Геномные исследования . 21 (12): 2224–2241. DOI : 10.1101 / gr.126599.111 . PMC 3227110 . PMID 21926179 .
Сообщение в блоге L50-vs-N50 (7 октября 2015 г.)

См. Также [ править ]

Индекс Херфиндаля – Хиршмана

[Castro2017-1] Кастро, Кристина Дж .; Нг, Терри Фей Фан (ноябрь 2017 г.). «U50: новая метрика для измерения выходных данных сборки на основе неперекрывающихся целевых контигов» . Журнал вычислительной биологии . 24 (11): 1071–1080. DOI : 10,1089 / cmb.2017.0013 . PMC 5783553 . PMID 28418726 .

[2] Хан, J .; Сандерс, КМ; Wang, C .; Ян, Q .; Wimbish, J .; Бун, BE; Томас, SJ; Леви, SE (25 сентября 2012 г.). Измерение разнообразия репертуара Т-клеток в периферической крови с помощью новых методов мультиплексной ПЦР и высокопроизводительных методов секвенирования . MipTec . Базель, Швейцария. Архивировано из оригинала 5 октября 2015 года . Проверено 5 октября 2015 года .

[1]