В генетике , оценка гаплотипа (также известная как «фазирование») относится к процессу статистической оценки гаплотипов из генотипов данных. Чаще всего возникает ситуация, когда генотипы собираются в наборе полиморфных сайтов у группы людей. Например, в генетике человека в рамках полногеномных ассоциативных исследований собираются генотипы у тысяч людей в пределах от 200 000 до 5 000 000 SNP с использованием микрочипов. При анализе этих наборов данных используются методы оценки гаплотипов, которые позволяют вменять генотип [1] [2] аллелей из справочных баз данных, таких как HapMap Project и 1000 Genomes Project..
Генотипы и гаплотипы
Генотипы измеряют неупорядоченную комбинацию аллелей в каждом сайте, тогда как гаплотипы - это две последовательности аллелей, унаследованных вместе от родителей человека. Когда есть гетерозиготные генотипы, присутствующие в индивидуальном наборе генотипов, будутвозможные пары гаплотипов, которые могут лежать в основе генотипов. Например, когда, мы имеем следующие гаплотипы: AA / TT, AT / TA, TA / AT и TT / AA. Если отсутствуют генотипы, то количество возможных пар гаплотипов увеличивается.
Методы оценки гаплотипа
Для оценки гаплотипов предложено множество статистических методов. Некоторые из самых ранних подходов использовали простую полиномиальную модель, в которой каждому возможному гаплотипу, соответствующему выборке, давался неизвестный частотный параметр, и эти параметры оценивались с помощью алгоритма ожидания-максимизации . Эти подходы были способны обрабатывать только небольшое количество сайтов одновременно, хотя позже были разработаны последовательные версии, в частности метод SNPHAP.
Наиболее точные и широко используемые методы оценки гаплотипов используют некоторую форму скрытой марковской модели (HMM) для выполнения вывода. Долгое время наиболее точным методом был ФАЗА [3] . ФАЗА была первым методом, который использовал идеи теории слияния относительно совместного распределения гаплотипов. В этом методе использовался метод выборки Гиббса, при котором гаплотипы каждого индивидуума обновлялись при условии текущих оценок гаплотипов из всех других выборок. Аппроксимации распределения гаплотипа, обусловленного набором других гаплотипов, использовались для условных распределений сэмплера Гиббса. ФАЗА использовалась для оценки гаплотипов из проекта HapMap . ФАЗА была ограничена своей скоростью и неприменима к наборам данных из полногеномных ассоциативных исследований.
Методы fastPHASE [4] и BEAGLE [5] представили модели кластеров гаплотипов, применимые к наборам данных размера GWAS . Впоследствии были введены методы IMPUTE2 [6] и MaCH [7], которые были похожи на подход PHASE, но намного быстрее. Эти методы итеративно обновляют оценки гаплотипов каждой выборки в зависимости от подмножества K оценок гаплотипов других выборок. IMPUTE2 представил идею тщательного выбора подмножества гаплотипов для повышения точности. Точность увеличивается с K, но с квадратичным вычислительная сложность.
Метод SHAPEIT1 значительно продвинулся за счет введения линейного метод сложности, который работает только с пространством гаплотипов, соответствующих генотипам человека. [8] Впоследствии метод HAPI-UR предложил очень похожий метод. [9] SHAPEIT2 [10] сочетает в себе лучшие функции SHAPEIT1 и IMPUTE2 для повышения эффективности и точности.
Смотрите также
- Список программ для оценки гаплотипов и вменения генотипов
- вменение : предсказать отсутствующие генотипы с использованием известных гаплотипов
Рекомендации
- ^ Marchini, J .; Хауи, Б. (2010). «Вменение генотипа для полногеномных ассоциативных исследований». Природа Обзоры Генетики . 11 (7): 499–511. DOI : 10.1038 / nrg2796 . PMID 20517342 . S2CID 1465707 .
- ^ Howie, B .; Fuchsberger, C .; Стивенс, М .; Marchini, J .; Абекасис, Гар (2012). «Быстрое и точное вменение генотипа в полногеномных ассоциативных исследованиях посредством предварительной фазы» . Генетика природы . 44 (8): 955–959. DOI : 10.1038 / ng.2354 . PMC 3696580 . PMID 22820512 .
- ^ Стивенс, М .; Смит, штат Нью-Джерси; Доннелли, П. (2001). «Новый статистический метод реконструкции гаплотипа из данных о населении» . Американский журнал генетики человека . 68 (4): 978–989. DOI : 10.1086 / 319501 . PMC 1275651 . PMID 11254454 .
- ^ Scheet, P .; Стивенс, М. (2006). «Быстрая и гибкая статистическая модель для крупномасштабных данных о популяционном генотипе: приложения для определения отсутствующих генотипов и гаплотипической фазы» . Американский журнал генетики человека . 78 (4): 629–644. DOI : 10.1086 / 502802 . PMC 1424677 . PMID 16532393 .
- ^ Браунинг, SR; Браунинг, Б.Л. (2007). «Быстрое и точное определение фазы гаплотипа и вывод отсутствующих данных для исследований ассоциации всего генома с помощью локализованной кластеризации гаплотипов» . Американский журнал генетики человека . 81 (5): 1084–1097. DOI : 10,1086 / 521987 . PMC 2265661 . PMID 17924348 .
- ^ Howie, BN; Donnelly, P .; Маркини, Дж. (2009). Щорк, Николай Дж (ред.). «Гибкий и точный метод вменения генотипа для следующего поколения исследований общегеномной ассоциации» . PLOS Genetics . 5 (6): e1000529. DOI : 10.1371 / journal.pgen.1000529 . PMC 2689936 . PMID 19543373 .
- ^ Li, Y .; Виллер, CJ; Ding, J .; Scheet, P .; Абекасис, GAR (2010). «MaCH: Использование данных о последовательности и генотипе для оценки гаплотипов и ненаблюдаемых генотипов» . Генетическая эпидемиология . 34 (8): 816–834. DOI : 10.1002 / gepi.20533 . PMC 3175618 . PMID 21058334 .
- ^ Delaneau, O .; Marchini, J .; Загуры, JFO (2011). «Метод фазирования линейной сложности для тысяч геномов». Методы природы . 9 (2): 179–181. DOI : 10.1038 / nmeth.1785 . PMID 22138821 . S2CID 13765612 .
- ^ Уильямс, AL; Patterson, N .; Glessner, J .; Hakonarson, H .; Райх, Д. (2012). «Фазирование многих тысяч генотипированных образцов» . Американский журнал генетики человека . 91 (2): 238–251. DOI : 10.1016 / j.ajhg.2012.06.013 . PMC 3415548 . PMID 22883141 .
- ^ Delaneau, O .; Загуры, JF; Маркини, Дж. (2012). «Улучшенная фазировка всей хромосомы для генетических исследований болезней и популяций». Методы природы . 10 (1): 5–6. DOI : 10.1038 / nmeth.2307 . PMID 23269371 . S2CID 205421216 .