Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

В биоинформатики и эволюционной биологии , в матрице замещения либо описывает скорость , с которой персонаж в нуклеотидной последовательности или через белковую последовательность изменения состояний других символов в течение эволюционного времени или описывает лог шансы найти два состояния специфического характера выровненные. Это приложение стохастической матрицы . Матрицы замен обычно рассматриваются в контексте выравнивания последовательностей аминокислот или ДНК , где сходство между последовательностями зависит от времени их расхождения и скоростей замен, представленных в матрице.

Фон [ править ]

В процессе эволюции от поколения к поколению аминокислотные последовательности белков организма постепенно изменяются под действием мутаций ДНК. Например, последовательность

Алое R YLRD

может трансформироваться в последовательность

ALEI N YLRD

за один шаг и, возможно,

А Q EI N Y Q RD

в течение более длительного периода эволюции. Каждая аминокислота с большей или меньшей вероятностью мутирует в различные другие аминокислоты. Например, гидрофильный остаток, такой как аргинин , с большей вероятностью будет заменен другим гидрофильным остатком, таким как глутамин , чем он будет преобразован в гидрофобный остаток, такой как лейцин . (Здесь остаток относится к аминокислоте, лишенной водорода и / или гидроксильной группы и вставленной в полимерную цепь белка.) Это в первую очередь связано с избыточностью генетического кода., который переводит похожие кодоны в похожие аминокислоты. Кроме того, мутация аминокислоты в остаток со значительно отличающимися свойствами может повлиять на укладку и / или активность белка. Этот тип разрушающей замены, вероятно, будет удален из популяций в результате действия очищающего отбора, потому что замена имеет более высокую вероятность сделать белок нефункциональным. [1]

Если перед нами две аминокислотные последовательности, мы должны иметь возможность сказать что-то о том, насколько вероятно, что они происходят от общего предка или гомологичны . Если мы сможем выровнять две последовательности с использованием алгоритма выравнивания последовательностей так, чтобы мутации, необходимые для преобразования гипотетической последовательности-предка в обе текущие последовательности, были бы эволюционно правдоподобными, тогда мы хотели бы присвоить высокий балл сравнению последовательности.

С этой целью мы построим матрицу 20x20, где th запись равна вероятности превращения th аминокислоты в аминокислоту th за определенное время эволюции. Есть много разных способов построить такую ​​матрицу, называемую матрицей подстановки . Вот наиболее часто используемые:

Матрица идентичности [ править ]

Простейшей возможной матрицей замены была бы такая, в которой каждая аминокислота считается максимально подобной самой себе, но не способной превращаться в какую-либо другую аминокислоту. Эта матрица выглядела бы так

Эта идентификационная матрица преуспеет в выравнивании очень похожих аминокислотных последовательностей, но будет неудовлетворительной при выравнивании двух отдаленно родственных последовательностей. Нам нужно вычислить все вероятности более строго. Оказывается, лучше всего работает эмпирическое исследование ранее выровненных последовательностей.

Матрицы логарифмов [ править ]

Мы выражаем вероятности трансформации в так называемых логарифмических оценках шансов . Матрица оценок S определяется как

где - вероятность превращения аминокислоты в аминокислоту , а , - частоты аминокислот i и j . Основание логарифма не имеет значения, и одна и та же матрица подстановки часто выражается в разных основаниях.

ПАМ [ править ]

Одна из первых матриц аминокислотных замен, матрица PAM ( Point Accepted Mutation ), была разработана Маргарет Дейхофф в 1970-х годах. Эта матрица рассчитывается путем наблюдения за различиями в близкородственных белках. Поскольку использование очень близких гомологов не ожидается, что наблюдаемые мутации существенно изменят общие функции белков. Таким образом, наблюдаемые замены (точечными мутациями) считаются принятыми естественным отбором.

Одна единица PAM определяется как 1% аминокислотных позиций, которые были изменены. Для создания матрицы замен PAM1 выбирается группа очень тесно связанных последовательностей с частотами мутаций, соответствующими одной единице PAM. На основе собранных мутационных данных из этой группы последовательностей может быть получена матрица замен. Эта матрица PAM1 оценивает, какую скорость замещения можно было бы ожидать, если бы изменился 1% аминокислот. Матрица PAM1 используется в качестве основы для расчета других матриц, предполагая, что повторяющиеся мутации будут следовать тому же шаблону, что и в матрице PAM1, и множественные замены могут происходить в одном и том же месте. Используя эту логику, Дейхофф вывел матрицы размером до PAM250. Обычно используются PAM 30 и PAM70.

Матрица для более отдаленно связанных последовательностей может быть вычислена из матрицы для близкородственных последовательностей путем возведения второй матрицы в степень. Например, мы можем приблизительно аппроксимировать матрицу WIKI2 из матрицы WIKI1, сказав, где WIKI1 и WIKI2. Так рассчитывается матрица PAM250.

BLOSUM [ править ]

Методология сравнения близкородственных видов Дейхоффа оказалась не очень эффективной для выравнивания эволюционно расходящихся последовательностей. Изменения последовательности в длительных эволюционных временных масштабах плохо аппроксимируются сложением небольших изменений, которые происходят в коротких временных масштабах. BLOSUM (BLOCK подстановка Matrix) серия матриц выпрямляет эту проблему. Хеникофф& Хеникофф сконструировал эти матрицы, используя множественные выравнивания эволюционно расходящихся белков. Вероятности, используемые в вычислении матрицы, вычисляются путем просмотра «блоков» консервативных последовательностей, обнаруженных при множественном выравнивании белков. Предполагается, что эти консервативные последовательности имеют функциональное значение в родственных белках и, следовательно, будут иметь более низкие скорости замены, чем менее консервативные области. Чтобы уменьшить смещение от близкородственных последовательностей к скорости замен, сегменты в блоке с идентичностью последовательности выше определенного порога были сгруппированы, уменьшая вес каждого такого кластера (Henikoff и Henikoff). Для матрицы BLOSUM62 этот порог был установлен на уровне 62%. Затем подсчитывались частоты пар между кластерами, следовательно, пары считались только между сегментами, идентичными менее чем на 62%.Можно использовать матрицу BLOSUM с более высоким номером для выравнивания двух близкородственных последовательностей и меньшее число для более расходящихся последовательностей.

Оказывается, матрица BLOSUM62 отлично справляется с обнаружением сходства в удаленных последовательностях, и эта матрица используется по умолчанию в самых последних приложениях для выравнивания, таких как BLAST .

Различия между PAM и BLOSUM [ править ]

  1. Матрицы PAM основаны на явной эволюционной модели (т.е. замены подсчитываются на ветвях филогенетического дерева), тогда как матрицы BLOSUM основаны на неявной модели эволюции.
  2. Матрицы PAM основаны на мутациях, наблюдаемых на протяжении всего глобального выравнивания, включая как высококонсервативные, так и очень мутабельные области. Матрицы BLOSUM основаны только на высококонсервативных участках в серии выравниваний, запрещенных для содержания пробелов.
  3. Метод, используемый для подсчета замен, отличается: в отличие от матрицы PAM, процедура BLOSUM использует группы последовательностей, в которых не все мутации считаются одинаковыми.
  4. Более высокие числа в схеме именования матриц PAM обозначают большее эволюционное расстояние, в то время как большие числа в схеме именования матриц BLOSUM обозначают большее сходство последовательностей и, следовательно, меньшее эволюционное расстояние. Пример: PAM150 используется для более удаленных последовательностей, чем PAM100; BLOSUM62 используется для более близких последовательностей, чем BLOSUM50.

Расширения и улучшения [ править ]

Было разработано множество специализированных матриц замен, которые описывают скорости аминокислотных замен в конкретных структурных контекстах или последовательностях, таких как трансмембранные альфа-спирали, [2] для комбинаций состояний вторичной структуры и состояний доступности растворителя, [3] [4] [5 ] или для локальных контекстов структуры последовательности. [6] Эти контекстно-зависимые матрицы подстановки приводят к общему улучшению качества выравнивания за счет некоторой скорости, но пока еще не получили широкого распространения. Недавно было установлено, что аминокислотные сходства, зависящие от контекста последовательностей, не нуждаются в матрицах замен, а основываются на библиотеке контекстов последовательностей. Используя эту идею, контекстно-зависимое расширение популярного BLASTПрограмма продемонстрировала возможность достижения двукратного повышения чувствительности для удаленно связанных последовательностей по сравнению с BLAST с аналогичной скоростью ( CS-BLAST ).

Терминология [ править ]

Хотя « матрица перехода » часто используется взаимозаменяемо с «матрицей замещения» в областях, отличных от биоинформатики, первый термин проблематичен в биоинформатике. Что касается нуклеотидных замен, « переход » также используется для обозначения тех замен, которые находятся между пуринами с двумя кольцами (A → G и G → A) или между пиримидинами с одним кольцом (C → T и T → C). . Поскольку эти замены не требуют изменения количества колец, они происходят чаще, чем другие замены. « Трансверсия » - это термин, используемый для обозначения более медленных замен, которые изменяют пурин на пиримидин или наоборот (A C, A ↔ T, G C и G T).

См. Также [ править ]

  • Модели эволюции ДНК
  • Модель замещения

Ссылки [ править ]

  1. Перейти ↑ Xiong, Jin (2006). Основы биоинформатики . Кембридж: Издательство Кембриджского университета. DOI : 10,1017 / cbo9780511806087.004 . ISBN 978-0-511-80608-7.
  2. ^ Мюллер, Т; Рахманн, S; Ремсмайер, М. (2001). «Несимметричные оценочные матрицы и обнаружение гомологичных трансмембранных белков» . Биоинформатика . 17 Дополнение 1: S182–9. DOI : 10.1093 / биоинформатики / 17.suppl_1.s182 . PMID 11473008 . 
  3. ^ Райс, DW; Айзенберг, Д. (1997). «Матрица замещения 3D-1D для распознавания белковой складки, которая включает предсказанную вторичную структуру последовательности». Журнал молекулярной биологии . 267 (4): 1026–38. CiteSeerX 10.1.1.44.1143 . DOI : 10.1006 / jmbi.1997.0924 . PMID 9135128 .  
  4. ^ Гонг, Сунгсам; Бланделл, Том Л. (2008). Левитт, Майкл (ред.). «Исключение функциональных остатков из таблицы замен улучшает предсказание активных сайтов в трехмерных структурах» . PLOS Вычислительная биология . 4 (10): e1000179. Bibcode : 2008PLSCB ... 4E0179G . DOI : 10.1371 / journal.pcbi.1000179 . PMC 2527532 . PMID 18833291 .  
  5. ^ Goonesekere, Северная Каролина; Ли, Б. (2008). «Контекстно-зависимые матрицы аминокислотных замен и их использование в обнаружении белковых гомологов». Белки . 71 (2): 910–9. DOI : 10.1002 / prot.21775 . PMID 18004781 . S2CID 27443393 .  
  6. ^ Хуанг, Ю. М.; Быстров, C (2006). «Улучшенное попарное выравнивание белков в сумеречной зоне с использованием предсказаний локальной структуры» . Биоинформатика . 22 (4): 413–22. DOI : 10.1093 / биоинформатики / bti828 . PMID 16352653 . 

Дальнейшее чтение [ править ]

  • Альтчул, С.Ф. (1991). «Матрицы замещения аминокислот с теоретической точки зрения информации» . Журнал молекулярной биологии . 219 (3): 555–65. DOI : 10.1016 / 0022-2836 (91) 90193-A . PMC  7130686 . PMID  2051488 .
  • Дайхофф, Миссури; Шварц, RM; Оркатт, Британская Колумбия (1978). «Модель эволюционного изменения белков». Атлас последовательности и структуры белков . 5 (3): 345–352.
  • Эдди, SR (2004). «Откуда взялась матрица оценок согласования BLOSUM62?». Природа Биотехнологии . 22 (8): 1035–6. DOI : 10.1038 / nbt0804-1035 . PMID  15286655 . S2CID  205269887 .
  • Хеникофф, S; Хеникофф, JG (1992). «Матрицы аминокислотного замещения из белковых блоков» . Труды Национальной академии наук Соединенных Штатов Америки . 89 (22): 10915–9. Bibcode : 1992PNAS ... 8910915H . DOI : 10.1073 / pnas.89.22.10915 . PMC  50453 . PMID  1438297 .

Внешние ссылки [ править ]

  • Калькулятор матрицы PAM