Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В метагеномика , биннинг процесс группирования читает или контиг и назначая их индивидуальный геном . Методы группирования могут быть основаны либо на композиционных характеристиках, либо на совмещении (сходстве), либо на том и другом.

Введение [ править ]

Метагеномные образцы могут содержать считывания от огромного количества организмов. Например, в одном грамме почвы может быть до 18000 различных типов организмов, каждый со своим геномом. [1] Метагеномные исследования производят образцы ДНК всего сообщества и делают их доступными в виде нуклеотидных последовательностей определенной длины . В большинстве случаев неполный характер полученных последовательностей затрудняет сборку отдельных генов [2] , не говоря уже о восстановлении полных геномов каждого организма. Таким образом, методы биннинга представляют собой «лучшее средство» для идентификации чтений или контигов.в пределах определенного генома, известного как геном сборки метагенома (MAG). Таксономия MAG может быть выведена путем размещения в справочном филогенетическом дереве с использованием таких алгоритмов, как GTDB-Tk. [3]

Первые исследования, в которых брали образцы ДНК от нескольких организмов, использовали определенные гены для оценки разнообразия и происхождения каждого образца. [4] [5] Эти маркерные гены были ранее секвенированы из клональных культур известных организмов, поэтому всякий раз, когда один из таких генов появлялся в считывании или контиге из метагеномного образца, считывание могло быть отнесено к известному виду или к OTU этого вида. Проблема с этим методом заключалась в том, что только крошечная часть последовательностей несли маркерный ген, оставляя большую часть данных не присвоенными.

Современные методы биннинга используют как ранее доступную информацию, независимую от образца, так и внутреннюю информацию, присутствующую в образце. В зависимости от разнообразия и сложности выборки их степень успеха варьируется: в некоторых случаях они могут разрешить последовательности вплоть до отдельных видов, в то время как в некоторых других последовательности идентифицируются в лучшем случае с очень широкими таксономическими группами.

Объединение метагеномных данных из различных сред обитания может значительно расширить древо жизни. Такой подход к глобально доступным метагеномам объединил 52 515 индивидуальных микробных геномов и увеличил разнообразие бактерий и архей на 44%. [6]

Алгоритмы [ править ]

Алгоритмы группирования могут использовать предыдущую информацию и, таким образом, действовать как контролируемые классификаторы , или они могут пытаться найти новые группы, которые действуют как неконтролируемые классификаторы . Многие, конечно, делают и то, и другое. Классификаторы используют ранее известные последовательности, выполняя выравнивание по базам данных , и пытаются разделить последовательности на основе специфических для организма характеристик ДНК [7], таких как GC-контент .

Mande et al., (2012) [8] предоставляет обзор предпосылки, методологий, преимуществ, ограничений и проблем различных методов, доступных для объединения наборов метагеномных данных, полученных с использованием метода секвенирования с дробовиком. Некоторые из наиболее известных алгоритмов биннинга описаны ниже.

TETRA [ править ]

TETRA - это статистический классификатор, который использует шаблоны использования тетрануклеотидов в геномных фрагментах. [9] В ДНК четыре возможных нуклеотида , поэтому могут быть разные фрагменты из четырех последовательных нуклеотидов; эти фрагменты называются тетрамерами. TETRA работает, составляя таблицу частот каждого тетрамера для данной последовательности. Из этих частот z-значениязатем вычисляются, которые показывают, насколько чрезмерно или недостаточно представлен тетрамер в противоположность тому, что можно было бы ожидать, глядя на индивидуальные нуклеотидные композиции. Z-значения для каждого тетрамера собираются в вектор, и векторы, соответствующие разным последовательностям, сравниваются попарно, чтобы получить меру того, насколько похожи разные последовательности из образца. Ожидается, что наиболее похожие последовательности принадлежат организмам в одной OTU.

МЕГАН [ править ]

В подходе DIAMOND [10] + MEGAN [11] все чтения сначала выравниваются по эталонной базе данных белков, такой как NCBI-nr, а затем полученные выравнивания анализируются с использованием алгоритма наивного LCA, который помещает чтение на самый низкий таксономический узел в таксономии NCBI, который лежит, прежде всего, над всеми таксонами, с которыми чтение имеет существенное выравнивание. Здесь выравнивание обычно считается «значительным», если его битовая оценка превышает заданный порог (который зависит от длины чтения) и находится в пределах 10%, скажем, от наилучшего результата, наблюдаемого для этого чтения. Обоснование использования эталонных последовательностей белков, а не эталонных последовательностей ДНК, заключается в том, что существующие базы данных эталонных ДНК охватывают лишь небольшую часть истинного разнообразия геномов, существующих в окружающей среде.

Филопифия [ править ]

Phylopythia - это один контролируемый классификатор, разработанный исследователями в лабораториях IBM, и в основном это машина опорных векторов, обученная с помощью ДНК-кмеров из известных последовательностей. [5]

SOrt-ITEMS [ править ]

SOrt-ITEMS (Monzoorul et al., 2009) [12] - это алгоритм биннинга на основе выравнивания, разработанный Innovations Labs из Tata Consultancy Services (TCS) Ltd., Индия. Пользователям необходимо выполнить поиск сходства входных метагеномных последовательностей (считываний) с базой данных белков nr с помощью поиска BLASTx. Сгенерированный вывод blastx затем используется программой SOrt-ITEMS в качестве входных данных. В этом методе используется диапазон пороговых значений параметра выравнивания BLAST, чтобы сначала определить соответствующий таксономический уровень (или ранг), на котором может быть назначено чтение. Затем для окончательного определения метагеномного чтения применяется подход, основанный на ортологии. Другие алгоритмы биннинга на основе выравнивания, разработанные Innovation Labs of Tata Consultancy Services (TCS), включают DiScRIBinATE, [13] ProViDE [14]и СФИНКС. [15] Методологии этих алгоритмов кратко изложены ниже.

DiScRIBinATE [ править ]

DiScRIBinATE (Ghosh et al., 2010) [13] - это алгоритм биннинга на основе выравнивания, разработанный Innovations Labs компании Tata Consultancy Services (TCS) Ltd., Индия. DiScRIBinATE заменяет ортологический подход SOrt-ITEMS более быстрым подходом «без выравнивания». Было замечено, что включение этой альтернативной стратегии сократило время разбиения вдвое без какой-либо значительной потери точности и специфичности назначений. Кроме того, новая стратегия переклассификации, включенная в DiScRIBinATE, как представляется, снижает общий уровень ошибочной классификации.

ProViDE [ править ]

ProViDE (Ghosh et al., 2011) [14] - это метод биннинга на основе выравнивания, разработанный Innovation Labs компании Tata Consultancy Services (TCS) Ltd. для оценки вирусного разнообразия в метагеномных образцах. ProViDE использует подход, основанный на обратной ортлогии, аналогичный SOrt-ITEMS, для таксономической классификации метагеномных последовательностей, полученных из наборов данных вирома. Это настраиваемый набор пороговых значений параметров BLAST, специально подходящий для вирусных метагеномных последовательностей. Эти пороговые значения отражают модель дивергенции последовательностей и неоднородную таксономическую иерархию, наблюдаемую внутри / между различными таксономическими группами вирусного царства.

PCAHIER [ править ]

PCAHIER (Zheng et al., 2010), [16] другой алгоритм объединения, разработанный Технологическим институтом Джорджии, использует частоты n-мерных олигонуклеотидов в качестве характеристик и использует иерархический классификатор (PCAHIER) для объединения коротких метагеномных фрагментов. Анализ главных компонентов использовался для уменьшения высокой размерности пространства признаков. Эффективность PCAHIER была продемонстрирована путем сравнения с неиерархическим классификатором и двумя существующими алгоритмами биннинга (TETRA и Phylopythia).

СФИНКС [ править ]

SPHINX (Mohammed et al., 2011) [15], другой алгоритм биннинга, разработанный Innovation Labs of Tata Consultancy Services (TCS) Ltd., использует гибридную стратегию, которая обеспечивает высокую эффективность биннинга за счет использования обоих принципов «композиции» - и алгоритмы бинирования на основе «выравнивания». Подход был разработан с целью анализа наборов метагеномных данных так же быстро, как подходы, основанные на композиции, но, тем не менее, с точностью и специфичностью алгоритмов, основанных на выравнивании. Было замечено, что SPHINX классифицирует метагеномные последовательности так же быстро, как и алгоритмы на основе композиции. Кроме того, было обнаружено, что эффективность биннинга (с точки зрения точности и специфичности назначений) SPHINX сравнима с результатами, полученными с использованием алгоритмов на основе выравнивания.

INDUS и TWARIT [ править ]

Представляют другие основанные на композиции алгоритмы биннинга, разработанные Innovation Labs of Tata Consultancy Services (TCS) Ltd. Эти алгоритмы используют ряд олигонуклеотидных композиционных (а также статистических) параметров для сокращения времени биннинга при сохранении точности и специфичности таксономических назначений. [17] [18]

Другие алгоритмы [ править ]

Этот список не является исчерпывающим:

  • TACOA (Диаз и др., 2009)
  • Параллельно-МЕТА (Su et al., 2011)
  • PhyloPythiaS (Патил и др., 2011)
  • РИТА (MacDonald et al., 2012) [19]
  • БиМета (Le et al., 2015) [20]
  • MetaPhlAn (Segata et al., 2012) [21]
  • SeMeta (Le et al., 2016) [22]
  • Quikr (Koslicki et al., 2013) [23]
  • Таксонер (Pongor et al., 2014) [24]
  • MaxBin (Ву и др., 2014) [25]
  • MetaBAT 2 (Канг и др., 2019) [26]
  • CONCOCT (Alneberg et al., 2014) [27]
  • Anvi'o (Эрен и др., 2015) [28]
  • DAS Tool (Sieber et al., 2018) [29] - оболочка, объединяющая несколько алгоритмов биннинга.

Все эти алгоритмы используют разные схемы для последовательностей биннинга, такие как иерархическая классификация , и работают либо под наблюдением, либо без надзора . Эти алгоритмы обеспечивают общее представление о том, насколько разнообразны образцы, и потенциально могут связать состав сообщества и его функции в метагеномах.

Ссылки [ править ]

  1. ^ Даниэль, Рольф (2005-06-01). «Метагеномика почвы». Обзоры природы микробиологии . 3 (6): 470–478. DOI : 10.1038 / nrmicro1160 . ISSN  1740-1526 . PMID  15931165 . S2CID  32604394 .
  2. ^ Вули, Джон С .; Адам Годзик; Иддо Фридберг (26 февраля 2010 г.). «Букварь по метагеномике» . PLOS Comput Biol . 6 (2): e1000667. Bibcode : 2010PLSCB ... 6E0667W . DOI : 10.1371 / journal.pcbi.1000667 . PMC 2829047 . PMID 20195499 .  
  3. ^ Шомей, Пьер-Ален; Муссиг, Аарон Дж; Гугенгольц, Филипп; Парки, Донован Х (2019-11-15). Хэнкок, Джон (ред.). «GTDB-Tk: набор инструментов для классификации геномов с помощью базы данных таксономии генома» . Биоинформатика : btz848. DOI : 10.1093 / биоинформатики / btz848 . ISSN 1367-4803 . PMC 7703759 . PMID 31730192 .   
  4. ^ Джованнони, Стивен Дж .; Тереза ​​Б. Бричги; Крейг Л. Мойер; Кэтрин Г. Филд (1990-05-03). «Генетическое разнообразие бактериопланктона Саргассова моря». Природа . 345 (6270): 60–63. Bibcode : 1990Natur.345 ... 60G . DOI : 10.1038 / 345060a0 . PMID 2330053 . S2CID 4370502 .  
  5. ^ а б Макхарди, Элис Кэролайн; Гектор Гарсия Мартин; Аристотель Циригос; Филип Гугенгольц; Исидор Ригутсос (январь 2007 г.). «Точная филогенетическая классификация фрагментов ДНК переменной длины». Методы природы . 4 (1): 63–72. DOI : 10.1038 / nmeth976 . ISSN 1548-7091 . PMID 17179938 . S2CID 28797816 .   
  6. ^ Консорциум данных IMG / M; Найфах, Стивен; Ру, Саймон; Сешадри, Рекха; Удвари, Даниэль; Варгезе, Неха; Шульц, Фредерик; У, Дунъин; Паэс-Эспино, Дэвид; Чен, И-Мин; Хантеманн, Марсель (2020-11-09). «Геномный каталог микробиомов Земли» . Природа Биотехнологии . DOI : 10.1038 / s41587-020-0718-6 . ISSN 1087-0156 . 
  7. ^ Карлин, S .; И. Ладунга; Б. Е. Блейсделл (1994). «Неоднородность геномов: меры и значения» . Труды Национальной академии наук . 91 (26): 12837–12841. Bibcode : 1994PNAS ... 9112837K . DOI : 10.1073 / pnas.91.26.12837 . PMC 45535 . PMID 7809131 .  
  8. ^ Mande, Sharmila S .; Монзоорул Хак Мохаммед; Тарини Шанкар Гош (2012). «Классификация метагеномных последовательностей: методы и проблемы» . Брифинги по биоинформатике . 13 (6): 669–81. DOI : 10.1093 / нагрудник / bbs054 . PMID 22962338 . 
  9. ^ Тилинг, Ханно; Йост Вальдманн; Тьерри Ломбардо; Маргарет Бауэр; Фрэнк Глокнер (2004). «TETRA: веб-сервис и отдельная программа для анализа и сравнения моделей использования тетрануклеотидов в последовательностях ДНК» . BMC Bioinformatics . 5 (1): 163. DOI : 10,1186 / 1471-2105-5-163 . PMC 529438 . PMID 15507136 .  
  10. ^ Buchfink, С и Huson (2015). «Быстрое и чувствительное выравнивание белков с помощью DIAMOND». Методы природы . 12 (1): 59–60. DOI : 10.1038 / nmeth.3176 . PMID 25402007 . S2CID 5346781 .  
  11. ^ Хьюсон, Дэниел Х; С. Байер; И. Флейд; А. Горска; М. Эль-Хадиди; Х. Рушевей; Р. Таппу (2016). «MEGAN Community Edition - Интерактивное исследование и анализ крупномасштабных данных секвенирования микробиома» . PLOS Вычислительная биология . 12 (6): e1004957. Bibcode : 2016PLSCB..12E4957H . DOI : 10.1371 / journal.pcbi.1004957 . PMC 4915700 . PMID 27327495 .  
  12. ^ Хак М., Монзоорул; Тарини Шанкар Гош; Динакар Командури; Шармила С Манде (2009). «SOrt-ITEMS: подход на основе ортологии последовательностей для улучшенной таксономической оценки метагеномных последовательностей» . Биоинформатика . 25 (14): 1722–30. DOI : 10.1093 / биоинформатики / btp317 . PMID 19439565 . 
  13. ^ a b Гош, Тарини Шанкар; Monzoorul Haque M; Шармила С Манде (2010). «DiScRIBinATE: быстрый метод точной таксономической классификации метагеномных последовательностей» . BMC Bioinformatics . 11 (S7): S14. DOI : 10.1186 / 1471-2105-11-s7-S14 . PMC 2957682 . PMID 21106121 .  
  14. ^ a b Гош, Тарини Шанкар; Монзоорул Хак Мохаммед; Динакар Командури; Шармила С Манде (2011). «ProViDE: программный инструмент для точной оценки вирусного разнообразия в метагеномных образцах» . Биоинформация . 6 (2): 91–94. DOI : 10.6026 / 97320630006091 . PMC 3082859 . PMID 21544173 .  
  15. ^ a b Мохаммед, Монзурул Хак; Тарини Шанкар Гош; Нитин Кумар Сингх; Шармила С Манде (2011). «СФИНКС - алгоритм таксономического биннинга метагеномных последовательностей». Биоинформатика . 27 (1): 22–30. DOI : 10.1093 / биоинформатики / btq608 . PMID 21030462 . 
  16. ^ Чжэн, Хао; Хунвэй Ву (2010). «Объединение коротких фрагментов прокариотической ДНК с использованием иерархического классификатора на основе линейного дискриминантного анализа и анализа главных компонентов». J Bioinform Comput Biol . 8 (6): 995–1011. DOI : 10.1142 / s0219720010005051 . PMID 21121023 . 
  17. ^ Мохаммед, Монзурул Хак; Тарини Шанкар Гош; Рачамалла Махидхар Редди; CV Редди; Нитин Кумар Сингх; Шармила С Манде (2011). «INDUS - основанный на композиции подход для быстрой и точной таксономической классификации метагеномных последовательностей» . BMC Genomics . 12 (S3): S4. DOI : 10.1186 / 1471-2164-12-s3-s4 . PMC 3333187 . PMID 22369237 .  
  18. ^ Редди, Рачамалла Махидхар; Монзоорул Хак Мохаммед; Шармила С Манде (2013). «TWARIT: чрезвычайно быстрый и эффективный подход к филогенетической классификации метагеномных последовательностей». Джин . 505 (2): 259–65. DOI : 10.1016 / j.gene.2012.06.014 . PMID 22710135 . 
  19. ^ Макдональд, Норман Дж .; Донован Х. Паркс; Роберт Г. Бейко (2012). «Профилирование метагеномного микробного сообщества с использованием уникальных маркерных генов, специфичных для клады» . Исследования нуклеиновых кислот . 40 (14): e111. DOI : 10.1093 / NAR / gks335 . PMC 3413139 . PMID 22532608 .  
  20. Ван Винь, Ле, Ван Ланг, Тран и Тран Ван Хоай. «Двухфазный алгоритм объединения с использованием частоты 1-мерного числа для групп неперекрывающихся чтений». Алгоритмы молекулярной биологии 10.1 (2015): 1.
  21. ^ Никола, Сегата; Леви Уолдрон; Анналиса Балларини; Вагиш Нарасимхан; Оливье Юссон; Кертис Хаттенхауэр (2012). «Профилирование метагеномного микробного сообщества с использованием уникальных маркерных генов, специфичных для клады» . Методы природы . 9 (8): 811–814. DOI : 10.1038 / nmeth.2066 . PMC 3443552 . PMID 22688413 .  
  22. Ван Винь, Ле, Ван Ланг, Тран и Тран Ван Хоай. «Новый полууправляемый алгоритм для таксономического присвоения метагеномных чтений». BMC bioinformatics, 17 (1), 2016.
  23. ^ Koslicki, Дэвид; Саймон Фукар; Гейл Розен (2013). «Quikr: метод быстрой реконструкции бактериальных сообществ с помощью компрессионного зондирования» . Биоинформатика . 29 (17): 2096–2102. DOI : 10.1093 / биоинформатики / btt336 . PMID 23786768 . 
  24. ^ Понгор, Леринк; Роберто Вера; Балаж Лигети1 (2014). «Быстрое и точное сопоставление результатов секвенирования микробного полного генома считывает большие наборы данных последовательностей на настольном ПК: приложение для наборов метагеномных данных и идентификация патогенов» . PLOS ONE . 9 (7): e103441. Bibcode : 2014PLoSO ... 9j3441P . DOI : 10.1371 / journal.pone.0103441 . PMC 4117525 . PMID 25077800 .  
  25. ^ Ву, Ю-Вэй; Тан, Юн-Сюй; Триндж, Сюзанна Джи; Симмонс, Блейк А; Певец, Стивен В. (декабрь 2014 г.). «MaxBin: автоматический метод биннинга для восстановления отдельных геномов из метагеномов с использованием алгоритма максимизации ожидания» . Микробиом . 2 (1): 26. DOI : 10,1186 / 2049-2618-2-26 . ISSN 2049-2618 . PMC 4129434 . PMID 25136443 .   
  26. ^ Кан, Dongwan D .; Ли, Фэн; Киртон, Эдвард; Томас, Эшли; Иган, Роб; Ан, Хонг; Ван, Чжун (26.07.2019). «MetaBAT 2: адаптивный алгоритм биннинга для надежной и эффективной реконструкции генома из сборок метагенома» . PeerJ . 7 : e7359. DOI : 10,7717 / peerj.7359 . ISSN 2167-8359 . PMC 6662567 . PMID 31388474 .   
  27. ^ Алнеберг, Йоханнес; Бьярнасон, Бринджар Смари; де Брейн, Ино; Ширмер, Мелани; Быстрее, Джошуа; Ияз, Умер З; Лахти, Лев; Ломан, Николас Дж; Андерссон, Андерс Ф; Айва, Кристофер (ноябрь 2014 г.). «Объединение метагеномных контигов по охвату и составу» . Методы природы . 11 (11): 1144–1146. DOI : 10.1038 / nmeth.3103 . ISSN 1548-7091 . 
  28. ^ Эрен, А. Мюрат; Esen, Özcan C .; Айва, Кристофер; Vineis, Joseph H .; Моррисон, Хилари Дж .; Sogin, Mitchell L .; Дельмонт, Том О. (2015-10-08). «Anvi'o: платформа для расширенного анализа и визуализации данных omics» . PeerJ . 3 : e1319. DOI : 10,7717 / peerj.1319 . ISSN 2167-8359 . PMC 4614810 . PMID 26500826 .   
  29. ^ Зибер, Кристиан МК; Пробст, Александр Дж .; Шаррар, Эллисон; Томас, Брайан Ч .; Гесс, Матиас; Триндж, Сюзанна Дж .; Банфилд, Джиллиан Ф. (июль 2018 г.). «Восстановление геномов из метагеномов с помощью стратегии дерепликации, агрегации и подсчета очков» . Природная микробиология . 3 (7): 836–843. DOI : 10.1038 / s41564-018-0171-1 . ISSN 2058-5276 . PMC 6786971 . PMID 29807988 .   
  • Шлосс, Патрик Д.; Джо Хандельсман (21 июля 2006 г.). «К переписи бактерий в почве» . PLOS Comput Biol . 2 (7): e92. Bibcode : 2006PLSCB ... 2 ... 92S . DOI : 10.1371 / journal.pcbi.0020092 . PMC  1513271 . PMID  16848637 .