Отношение K a / K s

В генетике , то К / K _сек отношения , также известное как & omega или г _N / д _S соотношение , ^[а] используются для оценки баланса между нейтральными мутациями , стабилизирующим отбором и полезными мутациями , действующих на множестве гомологичных белок-кодирующие гены . Он рассчитывается как отношение количества несинонимичных замен на один несинонимичный сайт (K _a ) в заданный период времени к количеству синонимичных замен на синонимичный сайт (K _s), в тот же период. Последние считаются нейтральными, так что соотношение указывает на чистый баланс между вредными и полезными мутациями. Значения K _a / K _s, значительно превышающие 1, вряд ли будут иметь место без, по крайней мере, некоторых мутаций, являющихся полезными. Если предполагается, что полезные мутации вносят небольшой вклад, то K _s оценивает степень эволюционных ограничений .

Контекст

Отбор влияет на вариации фенотипов, которые часто являются результатом мутаций в генах, кодирующих белок . Генетический код записываются в ДНК последовательность , как кодоны , группы из трех нуклеотидов . Каждый кодон представляет собой одну аминокислоту в белковой цепи. Однако кодонов (64) больше, чем аминокислот в белках (20), поэтому многие кодоны фактически являются синонимами. Например, кодоны ДНК TTT и TTC оба кодируют аминокислоту фенилаланин , поэтому изменение с третьего T на C не влияет на полученный белок. С другой стороны, кодон GAG кодирует глутаминовую кислоту, в то время как кодон GTG кодирует валин , поэтому изменение со среднего A на T действительно изменяет полученный белок в лучшую или (более вероятно) худшую сторону ^[b], поэтому изменение не синоним. Эти изменения показаны в таблицах ниже.

Отношение K _a / K _s измеряет относительную частоту синонимичных и несинонимичных замен на конкретном сайте.

Точечная мутация вызывает синонимическую замену
Тип конструкции	Перед	Изменять	После	Результат
Кодон в последовательности ДНК	TTT	безобидная мутация; ^[c] Синонимическая подстановка	TTC
↓ коды для	↓ коды для		↓ коды для
Аминокислота в белке	Фенилаланин	без изменений	Фенилаланин	Нормальный белок, нормальная функция

Точечная мутация вызывает несинонимичное замещение
Тип конструкции	Перед	Изменять	После	Результат
Кодон в последовательности ДНК	GAG	Миссенс-мутация ; Несинонимичная подмена	GTG
↓ коды для	↓ коды для		↓ коды для
Аминокислота в белке	Глютаминовая кислота	структурное изменение	Валин	Измененный белок может причинить или не причинить вред (например, болезнь) или дать новое преимущество

Методы

Способы оценки K _a и K _s используют выравнивание последовательностей двух или более нуклеотидных последовательностей гомологичных генов, которые кодируют белки (а не являются генетическими переключателями, контролирующими развитие или скорость активности других генов). Методы можно разделить на три группы: приближенные методы, методы максимального правдоподобия и методы подсчета. Однако, если сравниваемые последовательности не являются отдаленно связанными (в этом случае преобладают методы максимального правдоподобия), используемый класс метода оказывает минимальное влияние на полученные результаты; более важны предположения, заложенные в выбранном методе. ^[1]^{: 498}

Примерные методы

Приближенные методы включают три основных шага: (1) подсчет количества синонимичных и несинонимичных сайтов в двух последовательностях или оценка этого числа путем умножения длины последовательности на долю каждого класса замещения; (2) подсчет количества синонимичных и несинонимичных замен; и (3) исправление множественных замен.

Эти шаги, особенно последний, требуют упрощения допущений, если они должны быть достигнуты с помощью вычислений; по причинам, обсуждаемым ниже, невозможно точно определить количество множественных замен. ^[1]

Методы максимального правдоподобия

Подход максимального правдоподобия использует теорию вероятностей для одновременного выполнения всех трех шагов. ^[1] Он оценивает критические параметры, включая расхождение между последовательностями и соотношение переход / трансверсия, путем выведения наиболее вероятных значений для получения входных данных. ^[1]

Методы подсчета

Чтобы количественно оценить количество замен, можно восстановить предковую последовательность и записать предполагаемые изменения на участках (прямой подсчет - вероятно, даст заниженную оценку); подгонка коэффициентов замены на участках по заранее определенным категориям ( байесовский подход; плохо для небольших наборов данных); и создание индивидуальной скорости замещения для каждого кодона (затратно с точки зрения вычислений). При наличии достаточного количества данных все три подхода приведут к одному и тому же результату. ^[2]

Интерпретация результатов

Отношение K _a / K _s используется для вывода о направлении и величине естественного отбора, действующего на гены, кодирующие белки. Отношение больше 1 подразумевает позитивный или дарвиновский отбор (движущее изменение); меньше 1 означает очищающий или стабилизирующий отбор (противодействие изменениям); а соотношение ровно 1 указывает на нейтральный (то есть отрицательный) выбор. Однако сочетание положительного и очищающего отбора в разных точках гена или в разное время его эволюции может нейтрализовать друг друга. Результирующее усредненное значение может замаскировать наличие одного из вариантов выбора и снизить кажущуюся величину другого выбора.

Конечно, необходимо выполнить статистический анализ, чтобы определить, значительно ли результат отличается от 1 или может возникнуть какое-либо очевидное различие в результате ограниченного набора данных. Соответствующий статистический тест для приближенного метода включает аппроксимацию dN - dS нормальным приближением и определение того, попадает ли 0 в центральную область приближения. Для анализа результатов анализа максимального правдоподобия можно использовать более сложные методы правдоподобия, выполняя критерий хи-квадрат, чтобы различать нулевую модель (K _a / K _s = 1) и наблюдаемые результаты. ^[1]

Полезность

Отношение K _a / K _s является более мощным тестом нейтральной модели эволюции, чем многие другие, доступные в популяционной генетике, поскольку требует меньшего количества предположений. ^[1]

Осложнения

Часто существует систематическая погрешность в частоте замены различных нуклеотидов , поскольку одни мутации более вероятны, чем другие. ^[1] Например, некоторые клоны могут менять C на T чаще, чем они меняют C на A. В случае аминокислоты аспарагин , которая кодируется кодонами AAT или AAC, высокая скорость обмена C-> T будет увеличить долю синонимичных замен в этом кодоне, тогда как высокая скорость обмена C → A увеличит скорость несинонимичных замен. Поскольку для переходов (T↔C и A↔G) довольно часто предпочтение отдается трансверсиям (другим изменениям), модели ^[1] должны учитывать возможность неоднородных обменных курсов. ^[3] Некоторые более простые приближенные методы, такие как методы Мията и Ясунага и Ней и Годжобори, не принимают их во внимание, что сокращает время вычислений за счет точности; эти методы будут систематически переоценивать N и недооценивать S. ^[1]

Кроме того, может иметь место систематическая ошибка, при которой определенные кодоны являются предпочтительными в гене, поскольку определенная комбинация кодонов может улучшить эффективность трансляции. ^[1]

Кроме того, с течением времени сайт может подвергаться множественным изменениям. Например, кодон может переключаться с AAA → AAC → AAT → AAA. Невозможно обнаружить множественные замены на одном сайте, поэтому оценка количества замен всегда занижена. Кроме того, в приведенном выше примере две несинонимичные и одна синонимичная замены произошли на третьем сайте; однако, поскольку замены восстанавливали исходную последовательность, нет никаких доказательств какой-либо замены. По мере увеличения времени расхождения между двумя последовательностями увеличивается и количество множественных замен. Таким образом, «длинные ветви» в анализе dN / dS могут привести к недооценке как dN, так и dS, и чем длиннее ветвь, тем труднее исправить внесенный шум. ^[3] Конечно, наследственная последовательность обычно неизвестна, и две сравниваемые линии эволюционировали параллельно с момента их последнего общего предка. Этот эффект можно смягчить, построив наследственную последовательность; точность этой последовательности повышается за счет наличия большого количества последовательностей, происходящих от этого общего предка, чтобы ограничить ее последовательность филогенетическими методами. ^[1]

Методы, которые учитывают ошибки в использовании кодонов и скорости перехода / трансверсии, значительно более надежны, чем те, которые этого не делают. ^[1]

Ограничения

Хотя отношение K _a / K _s является хорошим индикатором давления отбора на уровне последовательности, эволюционные изменения часто могут иметь место в регуляторной области гена, которая влияет на уровень, время или место экспрессии гена. Анализ K _a / K _s не обнаружит такого изменения. Он будет рассчитывать только селективное давление в областях, кодирующих белок. Кроме того, отбор, который не вызывает различий на уровне аминокислот, например, балансирующий отбор, этими методами невозможно обнаружить. ^[1]

Другая проблема заключается в том, что неоднородность внутри гена может затруднить интерпретацию результата. Например, если K _a / K _s = 1, это может быть связано с ослабленным отбором или с химерой положительного и очищающего отбора в локусе. Решением этого ограничения было бы применение анализа K _a / K _s для многих видов на отдельных кодонах.

Метод K _a / K _s требует достаточно сильного сигнала для обнаружения селекции. Чтобы обнаружить отбор между клонами, отбор, усредненный по всем сайтам в последовательности, должен давать K _a / K _s больше единицы - настоящий подвиг, если участки гена сильно консервативны. Чтобы выявить отбор на определенных участках, тогда отношение K _a / K _s должно быть больше единицы при усреднении по всем включенным линиям на этом участке - подразумевая, что участок должен находиться под давлением отбора во всех отобранных клонах. Это ограничение можно смягчить, разрешив коэффициенту K _a / K _s принимать несколько значений по сайтам и по линиям; включение большего количества родословных также увеличивает мощность подхода, основанного на сайтах. ^[1]

Кроме того, в этом методе отсутствует возможность различать положительные и отрицательные несинонимичные замены. Некоторые аминокислоты химически похожи друг на друга, тогда как другие замены могут привести к замене аминокислоты с совершенно разными свойствами по отношению к ее предшественнику. В большинстве ситуаций меньшее химическое изменение с большей вероятностью позволит белку продолжать функционировать, а большое химическое изменение может нарушить химическую структуру и вызвать сбой в работе белка. Однако включить это в модель непросто, поскольку очень трудно определить взаимосвязь между нуклеотидным замещением и эффектами измененных химических свойств. ^[1]

Дополнительное беспокойство заключается в том, что эффекты времени должны быть включены в анализ, если сравниваемые линии тесно связаны; это связано с тем, что для «отсеивания» вредных мутаций из популяции может потребоваться несколько поколений, чтобы естественный отбор «отсеял» вредные мутации, особенно если их влияние на приспособленность слабое. ^[4]^[5]^[6]^[7] Это ограничивает полезность отношения K _a / K _s для сравнения близкородственных популяций.

Индивидуальный кодонный подход

Дополнительную информацию можно получить, определив соотношение K _a / K _s в конкретных кодонах в последовательности гена. Например, область настройки частоты опсина может находиться под повышенным давлением отбора, когда вид колонизирует и адаптируется к новой среде, тогда как область, ответственная за инициализацию нервного сигнала, может подвергаться очищающей селекции. Чтобы обнаружить такие эффекты, в идеале можно было бы рассчитать отношение K _a / K _s на каждом участке. Однако это требует больших вычислительных ресурсов, и на практике устанавливается несколько классов K _a / K _s , и каждый сайт помещается в наиболее подходящий класс. ^[1]

Первым шагом в определении того, действует ли положительный выбор на сайтах, является сравнение теста, в котором отношение K _a / K _s ограничено <1 на всех сайтах, с тестом, где оно может принимать любое значение, и посмотреть, разрешает ли K _a / K _s превышение 1 на некоторых сайтах улучшает соответствие модели. Если это так, то сайты, попадающие в класс, где K _a / K _s > 1, являются кандидатами на положительный отбор. Эта форма теста может либо определить участки, которые могут быть изучены в ходе дальнейших лабораторных исследований для определения возможного давления отбора; или сайты, которые, как считается, имеют функциональное значение, могут быть отнесены к различным классам K _a / K _s до запуска модели. ^[1]

Заметки

^ Термины K_a / K_s и d _N / d _S используются взаимозаменяемо. Однако обратите внимание, что D _n и D _s - это параметры, отличные от d _N и d _S (или K _A и K _S ). D _n и D _s являются оценками количества, которые представляют общее количество несинонимичных и синонимичных замен.
^ «Лучше» означает, что изменение выгодно и будет отобрано естественным отбором. «Хуже» означает, что изменение вредно и будет выбрано против.
^ Часто, но не всегда, « тихая мутация ».

дальнейшее чтение

Ли, WH ; Wu, CI; Луо, СС (март 1985 г.). «Новый метод оценки синонимичных и несинонимичных скоростей замены нуклеотидов с учетом относительной вероятности изменений нуклеотидов и кодонов» . Мол. Биол. Evol . 2 (2): 150–74. DOI : 10.1093 / oxfordjournals.molbev.a040343 . PMID 3916709 .
Ней М., Годжобори Т. (сентябрь 1986 г.). «Простые методы оценки количества синонимичных и несинонимичных нуклеотидных замен» . Мол. Биол. Evol . 3 (5): 418–26. DOI : 10.1093 / oxfordjournals.molbev.a040410 . PMID 3444411 .
Ли WH (январь 1993 г.). «Объективная оценка показателей синонимичной и несинонимичной замены». J. Mol. Evol . 36 (1): 96–9. DOI : 10.1007 / bf02407308 . PMID 8433381 .
Памило П., Бьянки Н.О. (март 1993 г.). «Эволюция генов Zfx и Zfy: скорости и взаимозависимость между генами» . Мол. Биол. Evol . 10 (2): 271–81. DOI : 10.1093 / oxfordjournals.molbev.a040003 . PMID 8487630 .
Муза С.В., Гаут Б.С. (сентябрь 1994 г.). «Вероятностный подход для сравнения синонимичных и несинонимичных уровней нуклеотидных замен с применением к геному хлоропластов» . Мол. Биол. Evol . 11 (5): 715–24. DOI : 10.1093 / oxfordjournals.molbev.a040152 . PMID 7968485 .
Голдман Н., Ян З. (сентябрь 1994 г.). «Основанная на кодонах модель нуклеотидного замещения последовательностей ДНК, кодирующих белок» . Мол. Биол. Evol . 11 (5): 725–36. DOI : 10.1093 / oxfordjournals.molbev.a040153 . PMID 7968486 .
Комерон Дж. М. (декабрь 1995 г.). «Метод оценки количества синонимичных и несинонимичных замен на сайте». J. Mol. Evol . 41 (6): 1152–9. DOI : 10.1007 / bf00173196 . PMID 8587111 .
Ина Ю. (февраль 1995 г.). «Новые методы оценки количества синонимичных и несинонимичных замен». J. Mol. Evol . 40 (2): 190–226. DOI : 10.1007 / bf00167113 . PMID 7699723 .
Ян З (октябрь 1997 г.). «PAML: программный комплекс для филогенетического анализа максимального правдоподобия» . Comput. Прил. Biosci . 13 (5): 555–6. DOI : 10.1093 / биоинформатики / 13.5.555 . PMID 9367129 .
Ян З., Нильсен Р. (январь 2000 г.). «Оценка синонимичных и несинонимичных темпов замещения в реалистичных эволюционных моделях» . Мол. Биол. Evol . 17 (1): 32–43. DOI : 10.1093 / oxfordjournals.molbev.a026236 . PMID 10666704 .
Чжан З, Ли Дж, Ю Дж (2006). «Вычисление Ka и Ks с учетом неравных переходных замен» . BMC Evol. Биол . 6 (1): 44. DOI : 10.1186 / 1471-2148-6-44 . PMC 1552089 . PMID 16740169 .
Чжан З, Ли Дж, Чжао XQ, Ван Дж, Вонг Г.К., Ю Дж (ноябрь 2006 г.). «KaKs_Calculator: расчет Ka и Ks посредством выбора модели и усреднения модели» . Геномика Протеомика Биоинформатика . 4 (4): 259–63. DOI : 10.1016 / S1672-0229 (07) 60007-2 . PMC 5054075 . PMID 17531802 .

Для простого введения см. Херст, Л. (2002). «Отношение Ka / Ks: диагностика формы эволюции последовательности». Тенденции в генетике . 18 (9): 486–489. DOI : 10.1016 / S0168-9525 (02) 02722-1 . PMID 12175810 .

Внешние ссылки

KaKs_Calculator
Бесплатный онлайн-серверный инструмент, который вычисляет отношения KaKs для нескольких последовательностей
SeqinR: бесплатный и открытый пакет анализа биологической последовательности для языка R, который включает вычисление KaKs.

[1] Термины K_a / K_s и d _N / d _S используются взаимозаменяемо. Однако обратите внимание, что D _n и D _s - это параметры, отличные от d _N и d _S (или K _A и K _S ). D _n и D _s являются оценками количества, которые представляют общее количество несинонимичных и синонимичных замен.

[2] «Лучше» означает, что изменение выгодно и будет отобрано естественным отбором. «Хуже» означает, что изменение вредно и будет выбрано против.

[3] Часто, но не всегда, « тихая мутация ».

[Yang2000-4] ^ a b c d e f g h i j k l m n o p q Yang, Z .; Белявский, JP (2000). «Статистические методы определения молекулярной адаптации». Тенденции в экологии и эволюции . 15 (12): 496–503. CiteSeerX 10.1.1.19.6537 . DOI : 10.1016 / S0169-5347 (00) 01994-7 . PMID 11114436 .

[Pond2005-5] Косаковский пруд, С.Л .; Мороз, SDW (2005). «В конце концов, не такие уж и разногласия: сравнение методов обнаружения селекционных участков аминокислот» . Молекулярная биология и эволюция . 22 (5): 1208–22. DOI : 10.1093 / molbev / msi105 . PMID 15703242 .

[Hurst2002-6] а б Херст, Л. (2002). «Отношение Ka / Ks: диагностика формы эволюции последовательности». Тенденции в генетике . 18 (9): 486–489. DOI : 10.1016 / S0168-9525 (02) 02722-1 . PMID 12175810 .

[7] Роча, EPC; Смит, JM; Hurst, LD; Холден, MTG; Купер, Дж. Э .; Смит, штат Нью-Хэмпшир; Фейл, EJ (2006). «Сравнение dN / dS зависит от времени для близкородственных бактериальных геномов». Журнал теоретической биологии . 239 (2): 226–35. DOI : 10.1016 / j.jtbi.2005.08.037 . PMID 16239014 .

[8] Кряжимский С, Плоткин Ж.Б. (2008). «Популяционная генетика dN / dS» . PLoS Genetics . 4 (12): e1000304. DOI : 10.1371 / journal.pgen.1000304 . PMC 2596312 . PMID 19081788 .

[9] Петерсон Г.И., Масел Дж. (2009). «Количественное прогнозирование молекулярных часов и Ka / Ks в короткие сроки» . Молекулярная биология и эволюция . 26 (11): 2595–2603. DOI : 10.1093 / molbev / msp175 . PMC 2912466 . PMID 19661199 .

[10] Mugal, CF; Wolf JBW; Кай I (2014). «Почему время имеет значение: эволюция кодонов и временная динамика dN / dS» . Молекулярная биология и эволюция . 31 (1): 212–231. DOI : 10.1093 / molbev / mst192 . PMC 3879453 . PMID 24129904 .

[а]