Из Википедии, бесплатной энциклопедии
  (Перенаправлено из стратификации населения )
Перейти к навигации Перейти к поиску

Структура популяции (или стратификация популяции ) - это наличие систематической разницы в частотах аллелей между субпопуляциями в популяции в результате неслучайного спаривания между особями. Это может указывать на генетическое происхождение , а в контексте медицинской генетики это важная смешивающая переменная в исследованиях полногеномных ассоциаций (GWAS).

Причины [ править ]

Основная причина структуры популяции у видов, размножающихся половым путем, - это неслучайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей между группами должны быть одинаковыми. Структура населения обычно возникает из-за физического разделения на расстояние или препятствия, такие как горы и реки, за которым следует генетический дрейф . Другие причины включают поток генов в результате миграций, узкие места и расширение популяции , эффекты основателя , эволюционное давление , случайность и (у людей) культурные факторы. [1] [2]

Исследования ассоциаций [ править ]

Структура популяции может быть проблемой для ассоциативных исследований, таких как исследования случай-контроль , где ассоциация может быть обнаружена из-за основной структуры популяции, а не из-за локуса, связанного с заболеванием.. По аналогии можно представить себе сценарий, в котором определенные маленькие бусинки сделаны из определенного типа уникальной пены, и дети, как правило, подавляются этими бусинками; можно было бы ошибочно заключить, что пеноматериал вызывает удушье, хотя на самом деле это маленький размер бусинок. Кроме того, настоящий локус, вызывающий заболевание, может не быть найден в исследовании, если этот локус менее распространен в популяции, из которой выбираются пациенты. По этой причине в 1990-х годах было обычным делом использовать семейные данные, где влияние структуры популяции можно было легко контролировать с помощью таких методов, как тест на неравновесие по передаче.(ТДТ). Но если структура известна или предполагаемая структура найдена, существует ряд возможных способов реализовать эту структуру в исследованиях ассоциаций и, таким образом, компенсировать любые смещения населения. Большинство современных полногеномных исследований ассоциаций придерживаются точки зрения, что проблема популяционной структуры управляема [3] и что логистические преимущества использования несвязанных случаев и средств контроля делают эти исследования предпочтительнее, чем исследования семейных ассоциаций.

Два наиболее широко используемые подходы к решению этой проблеме включают в себя геномный контроль , который является относительно непараметрическим методом для управления надуванием статистики испытаний , [4] и структурированные методы объединения, [5] , которые используют генетическую информацию для оценки и управления для структуры населения. Алкес Прайс и его коллеги показали эффективность анализа главных компонентов . [6] Также возможно исправить структуру и смешение из-за загадочного родства, выведя матрицу родства и включив ее в линейную смешанную модель . [7] [8]

Геномный контроль [ править ]

Предположение об однородности популяции в ассоциативных исследованиях, особенно исследованиях случай-контроль, может быть легко нарушено и может привести к ошибкам как типа I, так и типа II.. Поэтому важно, чтобы модели, используемые в исследовании, компенсировали структуру населения. Проблема в исследованиях «случай-контроль» состоит в том, что, если есть генетическая причастность к заболеванию, популяция случаев, скорее всего, будет родственной, чем люди в контрольной популяции. Это означает, что нарушается предположение о независимости наблюдений. Часто это приводит к переоценке значимости ассоциации, но это зависит от того, как была выбрана выборка. Если по совпадению в подгруппе случаев наблюдается более высокая частота аллелей, вы обнаружите связь с любым признаком, который более распространен в данной популяции. [9]Этот вид ложной ассоциации увеличивается по мере роста выборки, поэтому проблема должна вызывать особую озабоченность в крупномасштабных исследованиях ассоциаций, когда локусы оказывают только относительно небольшое влияние на признак. Метод, который в некоторых случаях может компенсировать описанные выше проблемы, был разработан Девлином и Родером (1999). [4] Он использует как частотный, так и байесовский подход (последний уместен при работе с большим количеством генов-кандидатов ).

Частотный способ корректировки структуры населения работает с использованием маркеров, не связанных с рассматриваемым признаком, для корректировки любого завышения статистики, вызванного структурой населения. Метод был впервые разработан для бинарных признаков, но с тех пор был обобщен для количественных. [10] Для бинарного метода, который применяется к обнаружению генетических различий между случайной и контрольной популяциями, Девлин и Родер (1999) используют критерий тренда Армитиджа.

и тест на аллельные частоты χ 2 {\ displaystyle \ chi ^ {2}}

Если популяция находится в равновесии Харди – Вайнберга, две статистики приблизительно равны. При нулевой гипотезе об отсутствии стратификации населения критерием тренда является асимптотическое распределение с одной степенью свободы. Идея состоит в том, что статистика завышена на коэффициент, так что где зависит от эффекта стратификации. Вышеупомянутый метод основан на предположении, что коэффициент инфляции является постоянным, что означает, что локусы должны иметь примерно одинаковую частоту мутаций, не должны находиться под разным отбором в двух популяциях, а степень неравновесия Харди-Вайнберга измеряется коэффициентом Райта инбридинг F не должны различаться между разными локусами. Последний из них вызывает наибольшее беспокойство. Если эффект стратификации схож по разным локусам, его можно оценить по несвязанным маркерам.

где L - количество несвязанных маркеров. Знаменатель выводится из гамма-распределения как надежная оценка . Были предложены и другие методы оценки, например, Райх и Гольдштейн [11] предложили вместо этого использовать среднее значение статистики. Это не единственный способ оценки, но согласно Bacanu et al. [12] это подходящая оценка, даже если некоторые из несвязанных маркеров фактически находятся в неравновесном состоянии с локусом, вызывающим заболевание, или сами связаны с заболеванием. При нулевой гипотезе и при корректировке стратификации с использованием L несвязанных генов приблизительнораспределены. С этой поправкой общий коэффициент ошибок типа I должен быть приблизительно равен, даже если популяция стратифицирована. Devlin и Roeder (1999) [4] в основном рассматривали ситуацию, когда дает 95% доверительный уровень, а не меньшие p-значения. Marchini et al. (2004) [13] путем моделирования демонстрирует, что геномный контроль может привести к антиконсервативному значению p, если это значение очень мало и две популяции (случай и контроль) чрезвычайно различны. Это было особенно проблемой, если количество несвязанных маркеров составляло порядка 50-100. Это может привести к ложным срабатываниям (на этом уровне значимости).

Демографические выводы [ править ]

Структура популяции - важный аспект эволюционной и популяционной генетики . Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. В смешанных популяциях будут фрагменты гаплотипов их предковых групп, которые со временем постепенно уменьшаются из-за рекомбинации . Используя этот факт и сопоставляя общие гаплотипы отдельных людей в наборе генетических данных, исследователи могут отслеживать и датировать происхождение популяции и реконструировать исторические события, такие как взлет и падение империй, работорговля, колониализм и рост населения. [14]

Структура популяции может быть выведена в пределах данных с использованием различных методов, таких как уменьшение размерности и кластерный анализ [15] [16] или допущение статистической модели для данных и оценка ее параметров с использованием оценки максимального правдоподобия . [17]

Многие статистические методы полагаются на простые модели населения, чтобы вывести исторические демографические изменения, такие как наличие узких мест в населении, события примеси или время расхождения населения. Часто эти методы основываются на предположении о панмиктии или однородности в наследственной популяции. Неправильная спецификация таких моделей, например, из-за того, что не принимается во внимание наличие структуры в наследственной популяции, может привести к сильно смещенным оценкам параметров. [18] Имитационные исследования показывают, что историческая структура популяции может даже иметь генетические эффекты, которые легко могут быть неверно истолкованы как исторические изменения в размере популяции или наличие событий примеси, даже если таких событий не было. [19]

Ссылки [ править ]

  1. Cardon LR, Palmer LJ (февраль 2003 г.). «Стратификация населения и ложная аллельная ассоциация». Ланцет . 361 (9357): 598–604. DOI : 10.1016 / S0140-6736 (03) 12520-2 . PMID  12598158 . S2CID  14255234 .
  2. ^ Gil McVean (2001). «Структура населения» (PDF) . Архивировано из оригинального (PDF) 23 ноября 2018 года . Проверено 14 ноября 2020 .
  3. ^ Притчард JK, Розенберг Н. (июль 1999). «Использование несвязанных генетических маркеров для обнаружения стратификации населения в ассоциативных исследованиях» . Американский журнал генетики человека . 65 (1): 220–8. DOI : 10.1086 / 302449 . PMC 1378093 . PMID 10364535 .  
  4. ^ a b c Девлин Б., Рёдер К. (декабрь 1999 г.). «Геномный контроль для ассоциативных исследований». Биометрия . 55 (4): 997–1004. DOI : 10.1111 / j.0006-341X.1999.00997.x . PMID 11315092 . 
  5. ^ Притчард Ю.К., Стивенс М, Розенберг Н.А., Доннелли Р (июль 2000 г.). «Картирование ассоциаций в структурированных популяциях» . Американский журнал генетики человека . 67 (1): 170–81. DOI : 10.1086 / 302959 . PMC 1287075 . PMID 10827107 .  
  6. ^ Цена AL, Patterson NJ, Plenge RM, Weinblatt ME, Шадик Н. Райх D (август 2006). «Анализ основных компонентов корректирует стратификацию в полногеномных ассоциативных исследованиях». Генетика природы . 38 (8): 904–9. DOI : 10.1038 / ng1847 . PMID 16862161 . S2CID 8127858 .  
  7. ^ Yu J, Pressoir G, Briggs WH, Vroh Bi I, Yamasaki M, Doebley JF и др. (Февраль 2006 г.). «Единый метод смешанной модели для сопоставления ассоциаций, учитывающий несколько уровней взаимосвязи». Генетика природы . 38 (2): 203–8. DOI : 10.1038 / ng1702 . PMID 16380716 . S2CID 8507433 .  
  8. ^ Loh PR, Tucker G, Bulik-Sullivan BK, Vilhjálmsson BJ, Finucane HK , Salem RM и др. (Март 2015 г.). «Эффективный байесовский анализ смешанной модели увеличивает силу ассоциации в больших когортах» . Генетика природы . 47 (3): 284–90. DOI : 10.1038 / ng.3190 . PMC 4342297 . PMID 25642633 .  
  9. Lander ES, Schork NJ (сентябрь 1994 г.). «Генетическое вскрытие сложных признаков». Наука . 265 (5181): 2037–48. DOI : 10.1126 / science.8091226 . PMID 8091226 . 
  10. ^ Bacanu SA, Девлин B, Редер K (январь 2002). «Ассоциативные исследования количественных признаков в структурированных популяциях». Генетическая эпидемиология . 22 (1): 78–93. DOI : 10.1002 / gepi.1045 . PMID 11754475 . 
  11. Перейти ↑ Reich DE, Goldstein DB (январь 2001 г.). «Обнаружение ассоциации в исследовании случай-контроль при корректировке стратификации населения». Генетическая эпидемиология . 20 (1): 4–16. DOI : 10.1002 / 1098-2272 (200101) 20: 1 <4 :: АИД-GEPI2> 3.0.CO; 2-Т . PMID 11119293 . 
  12. ^ Bacanu SA, Девлин B, Редер K (июнь 2000). «Сила геномного контроля» . Американский журнал генетики человека . 66 (6): 1933–44. DOI : 10.1086 / 302929 . PMC 1378064 . PMID 10801388 .  
  13. ^ Марчини Дж, Кардон LR, Филлипс МС, Доннелли Р (май 2004 г.). «Влияние структуры человеческой популяции на большие исследования генетических ассоциаций» . Генетика природы . 36 (5): 512–7. DOI : 10.1038 / ng1337 . PMID 15052271 . S2CID 11694537 .  
  14. ^ Хелленталь G, Бусби ГБ, Группа G, Уилсон И. Ф., Капелли С, D Falush, Майерс S (февраль 2014). «Генетический атлас истории человеческой примеси» . Наука . 343 (6172): 747–751. DOI : 10.1126 / science.1243518 . PMC 4209567 . PMID 24531965 .  
  15. Patterson N, Price AL, Reich D (декабрь 2006 г.). «Структура населения и собственный анализ» . PLoS Genetics . 2 (12): e190. DOI : 10.1371 / journal.pgen.0020190 . PMC 1713260 . PMID 17194218 .  
  16. ^ Frichot Е, Ж Матьё, Trouillon Т, Бучард О, Франсуа О (апрель 2014 г.). «Быстрая и эффективная оценка индивидуальных коэффициентов родословной» . Генетика . 196 (4): 973–83. DOI : 10.1534 / genetics.113.160572 . PMC 3982712 . PMID 24496008 .  
  17. ^ Александр DH, Novembre J, Lange K (сентябрь 2009 г.). «Быстрая модельная оценка родословной у неродственных людей» . Геномные исследования . 19 (9): 1655–64. DOI : 10.1101 / gr.094052.109 . PMC 2752134 . PMID 19648217 .  
  18. ^ Scerri EM, Thomas MG, Manica A, Gunz P, Stock JT, Stringer C и др. (Август 2018). «Развивались ли наши виды в разделенных популяциях по всей Африке, и почему это имеет значение?» . Тенденции в экологии и эволюции . 33 (8): 582–594. DOI : 10.1016 / j.tree.2018.05.005 . PMC 6092560 . PMID 30007846 .  
  19. ^ Родригес Вт, Мазет О, S Grusea, Арредондо А, Corujo JM, Буатар S, Chikhi л (декабрь 2018). «IICR и нестационарное структурированное слияние: к демографическому выводу с произвольными изменениями в структуре населения» . Наследственность . 121 (6): 663–678. DOI : 10.1038 / s41437-018-0148-0 . PMC 6221895 . PMID 30293985 .