Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Пример точечных мутаций в аминокислотном сайте, кодирующем лизин . В миссенс мутация может быть классифицирована как точки принимаются мутации , если мутантный белок не отвергаются путем естественного отбора.

Точка принята мутация - также известная как PAM - это замена одной аминокислоты в первичной структуре в виде белка с другим одной аминокислотой, которая принимается процессами естественного отбора . Это определение не включает все точечные мутации в ДНК организма. В частности, молчащие мутации не являются точечно принятыми мутациями, равно как и мутации, которые не являются летальными или которые отвергаются естественным отбором другими способами.

Матрица РАМА представляет собой матрицу , где каждый столбец и строка представляет одну из двадцати стандартных аминокислот. В биоинформатике матрицы PAM регулярно используются в качестве матриц замещения для оценки выравнивания последовательностей белков. Каждая запись в матрице PAM указывает вероятность того, что аминокислота в этой строке будет заменена аминокислотой из этого столбца в результате серии из одной или нескольких точечных принятых мутаций в течение заданного эволюционного интервала, вместо того, чтобы эти две аминокислоты были выровнены должным образом. к случаю. Разные матрицы PAM соответствуют разным временам эволюции белковой последовательности.

Биологический фон [ править ]

Генетические инструкции каждой реплицирующейся клетки живого организма содержатся в его ДНК. [1] На протяжении всей жизни клетки эта информация транскрибируется и реплицируется клеточными механизмами для производства белков или предоставления инструкций для дочерних клеток во время деления клетки , и существует вероятность того, что ДНК может быть изменена во время этих процессов. [1] [2] Это известно как мутация . На молекулярном уровне существуют регуляторные системы, которые корректируют большую часть - но не все - этих изменений в ДНК до того, как она будет реплицирована. [2] [3]

Одна из возможных мутаций - это замена одного нуклеотида , известная как точечная мутация. Если точечная мутация происходит в экспрессируемой области гена , экзоне , то это изменит кодон, определяющий конкретную аминокислоту в белке, продуцируемом этим геном. [2] Несмотря на избыточность генетического кода , существует вероятность того, что эта мутация затем изменит аминокислоту, которая вырабатывается во время трансляции , и, как следствие, изменится структура белка.

Функциональность белка сильно зависит от его структуры. [4] Изменение одной аминокислоты в белке может снизить его способность выполнять эту функцию, или мутация может даже изменить функцию, которую выполняет белок. [2] Подобные изменения могут серьезно повлиять на важную функцию клетки, потенциально вызывая смерть клетки - и в крайних случаях - организма. [5]И наоборот, изменение может позволить клетке продолжать функционировать, хотя и по-другому, и мутация может быть передана потомству организма. Если это изменение не приведет к значительному физическому ущербу для потомства, существует вероятность того, что эта мутация сохранится в популяции. Также существует возможность того, что изменение функции станет выгодным. В любом случае, подвергаясь процессам естественного отбора, точечная мутация была принята в генетический пул.

20 аминокислот, транслируемых генетическим кодом, сильно различаются по физическим и химическим свойствам их боковых цепей. [4] Однако эти аминокислоты можно разделить на группы со схожими физико-химическими свойствами. [4] Замена аминокислоты другой из той же категории с большей вероятностью окажет меньшее влияние на структуру и функцию белка, чем замена аминокислотой из другой категории. Следовательно, принятие точечных мутаций сильно зависит от аминокислоты, заменяемой в мутации, и заменяемой аминокислоты. Матрицы PAM представляют собой математический инструмент, который учитывает эти различные скорости принятия при оценке сходства белков во время выравнивания.

Терминология [ править ]

Термин « принятая точечная мутация» первоначально использовался для описания феномена мутации. Однако аббревиатура PAM была предпочтительнее APM из-за удобочитаемости, поэтому термин « точечная мутация» используется более регулярно. [6] Поскольку значение в матрице PAM n представляет количество мутаций на 100 аминокислот, которое можно сравнить с процентом мутаций, иногда используется термин процент принятых мутаций .

Важно различать точечно принятые мутации (PAM), точечно принятые матрицы мутаций (PAM-матрицы) и матрицу PAM n . Термин «точечная принятая мутация» относится к самому событию мутации. Однако «матрица PAM» относится к одной из семейства матриц, которые содержат оценки, представляющие вероятность выравнивания двух аминокислот из-за серии событий мутации, а не из-за случайного совпадения. « Матрица PAM n » - это матрица PAM, соответствующая периоду времени, достаточному для возникновения событий мутации на 100 аминокислот.

Построение матриц PAM [ править ]

Матрицы PAM были введены Маргарет Дейхофф в 1978 году. [7] Расчет этих матриц был основан на 1572 наблюдаемых мутациях в филогенетических деревьях 71 семейства близкородственных белков. Исследуемые белки были отобраны на основе их высокого сходства со своими предшественниками. Включенные белковые выравнивания должны были показать идентичность по крайней мере на 85%. [6] [8] В результате разумно предположить, что любые выровненные несоответствия были результатом одного события мутации, а не нескольких в одном и том же месте.

Каждая матрица PAM имеет двадцать строк и двадцать столбцов - по одному для каждой из двадцати аминокислот, транслируемых генетическим кодом. Значение в каждой ячейке матрицы PAM связано с вероятностью того, что аминокислота строки до мутации впоследствии будет выровнена с аминокислотой столбца. [6] [7] [8] Исходя из этого определения, матрицы PAM являются примером матрицы подстановки .

Сбор данных с филогенетических деревьев [ править ]

Для каждой ветви филогенетических деревьев семейств белков регистрировалось количество наблюдаемых несоответствий и велись записи для двух задействованных аминокислот. [7] Эти подсчеты использовались как элементы под главной диагональю матрицы . Поскольку подавляющее большинство образцов белка поступает от живых организмов (современных видов), невозможно определить «направление» мутации. То есть аминокислоту, присутствующую до мутации, нельзя отличить от аминокислоты, которая заменила ее после мутации. Из-за этого матрица считается симметричной , и на этой основе вычисляются элементы вышеупомянутой главной диагонали. Записи по диагонали не соответствуют мутациям и могут быть оставлены незаполненными.

В дополнение к этим подсчетам были получены данные об изменчивости и частоте аминокислот. [6] [7] Изменчивость аминокислоты - это соотношение количества мутаций, в которых она участвует, и количества раз, когда она встречается в выравнивании. [7] Мутабельность измеряет вероятность приемлемой мутации аминокислоты. Аспарагин , аминокислота с небольшой полярной боковой цепью, оказался наиболее изменчивой из аминокислот. [7] Цистеин и триптофан оказались наименее мутабельными аминокислотами. [7]Боковые цепи цистеина и триптофана имеют менее распространенные структуры: боковая цепь цистеина содержит серу, которая участвует в дисульфидных связях с другими молекулами цистеина, а боковая цепь триптофана большая и ароматическая . [4] Поскольку существует несколько небольших полярных аминокислот, эти крайности предполагают, что аминокислоты более склонны к приемлемой мутации, если их физические и химические свойства более распространены среди альтернативных аминокислот. [6] [8]

Построение матрицы мутаций [ править ]

Для -ой аминокислоты значениями и являются ее изменчивость и частота. Частоты аминокислот нормализованы так, чтобы их сумма равнялась 1. Если общее количество появлений th аминокислоты равно , и является общим количеством всех аминокислот, то

На основе определения изменчивости как отношения мутаций к количеству встречаемости аминокислоты.

или же

Матрица мутаций построена так, что запись представляет вероятность мутации th аминокислоты в аминокислоту th. Недиагональные элементы вычисляются по уравнению [7]

где - коэффициент пропорциональности. Однако это уравнение не вычисляет диагональные элементы. Каждый столбец в матрице перечисляет каждый из двадцати возможных результатов для аминокислоты - она ​​может мутировать в одну из 19 других аминокислот или оставаться неизменной. Поскольку недиагональные записи, перечисляющие вероятности каждой из 19 мутаций, известны, а сумма вероятностей этих двадцати исходов должна быть равна 1, эту последнюю вероятность можно рассчитать следующим образом:

что упрощается до [7]

Особенно важным результатом является то, что для недиагональных элементов

Это означает, что для всех записей в матрице мутаций

Выбор коэффициента пропорциональности [ править ]

Вероятности, содержащиеся в, варьируются как некоторая неизвестная функция количества времени, в течение которого белковой последовательности позволено мутировать. Вместо того, чтобы пытаться определить эту взаимосвязь, значения рассчитываются для короткого периода времени, а матрицы для более длительных периодов времени рассчитываются, предполагая, что мутации следуют модели цепи Маркова . [9] [10] Базовая единица времени для матриц PAM - это время, необходимое для возникновения 1 мутации на 100 аминокислот, иногда называемое «единицей PAM» или «PAM» времени. [6] Это как раз продолжительность мутации, предполагаемая матрицей PAM 1 .

Константа используется для контроля доли неизмененных аминокислот. Используя только выравнивания белков, которые имели сходство не менее 85%, можно было разумно предположить, что наблюдаемые мутации были прямыми, без каких-либо промежуточных состояний. Это означает, что уменьшение этих подсчетов с помощью общего фактора обеспечило бы точную оценку количества мутаций, если бы сходство было ближе к 100%. Это также означает, что количество мутаций на 100 аминокислот в PAM n равно количеству мутировавших аминокислот на 100 аминокислот.

Чтобы найти матрицу мутаций для матрицы PAM 1 , требуется, чтобы 99% аминокислот в последовательности были консервативными. Количество равно количеству консервативных аминокислотных единиц, поэтому общее количество консервативных аминокислот составляет

Значение, которое необходимо выбрать для получения 99% идентичности после мутации, затем определяется уравнением

Это значение затем можно использовать в матрице мутаций для матрицы PAM 1 .

Построение матриц PAM n [ править ]

Цепь Маркова модель мутации белка относится матрицу мутации для PAM п , к матрице мутации для РАМ 1 матрицы, простым соотношением

Матрица PAM n строится из отношения вероятности точечно принятых мутаций, заменяющих th аминокислоту на th аминокислоту, к вероятности случайного выравнивания этих аминокислот. Элементы матрицы PAM n задаются уравнением [11] [12]

Обратите внимание, что в книге Гусфилда записи и относятся к вероятности мутации th аминокислоты в аминокислоту th. [11] Это источник различных уравнений для элементов матриц PAM.

При использовании матрицы PAM n для оценки выравнивания двух белков делается следующее предположение:

Если эти два белка связаны между собой, разделяющий их эволюционный интервал - это время, необходимое для возникновения точечных мутаций на 100 аминокислот.

Когда рассматривается выравнивание th и th аминокислот, оценка указывает относительную вероятность выравнивания из-за того, что белки связаны между собой или из-за случайной случайности.

  • Если белки связаны между собой, то должна была произойти серия точечных мутаций, в результате которых исходная аминокислота превратилась в ее замену. Предположим, что это оригинальная аминокислота. Основываясь на изобилии аминокислот в белках, вероятность того, что эта аминокислота является оригинальной, равна . Для любой конкретной единицы этой аминокислоты вероятность быть замененной й аминокислотой в предполагаемом временном интервале равна . Таким образом, вероятность совмещения равна числителю в пределах логарифма.
  • Если белки не связаны, то события, что две выровненные аминокислоты являются th и th аминокислотами, должны быть независимыми . Вероятности этих событий равны и , что означает, что вероятность совмещения равна знаменателю логарифма.
  • Таким образом, логарифм в уравнении приводит к положительной записи, если выравнивание более вероятно из-за точечных мутаций, и к отрицательной записи, если выравнивание более вероятно из-за случайности.

Свойства матриц PAM [ править ]

Симметрия матриц PAM [ править ]

Хотя матрица вероятности мутации не является симметричной, каждая из матриц PAM симметрична. [6] [7] Это несколько удивительное свойство является результатом взаимосвязи, отмеченной для матрицы вероятности мутации:

Фактически, это соотношение выполняется для всех положительных целых степеней матрицы :

В результате элементы матрицы PAM n симметричны, поскольку

Связь количества мутировавших аминокислот и количества мутаций [ править ]

Значение представляет собой количество мутаций, которые происходят на 100 аминокислот, однако это значение редко доступно и часто оценивается. Однако, сравнивая два белка, вместо этого легко вычислить количество мутировавших аминокислот на 100 аминокислот. Несмотря на случайный характер мутации, эти значения могут быть приблизительно связаны соотношением [13]

Достоверность этих оценок можно проверить путем подсчета количества аминокислот, которые остаются неизменными под действием матрицы . Общее количество неизмененных аминокислот за временной интервал матрицы PAM n равно

и поэтому доля неизмененных аминокислот составляет

Пример - PAM250 [ править ]

PAM250 - это обычно используемая матрица оценки для сравнения последовательностей. Требуется вычислить только нижнюю половину матрицы, поскольку по своему построению матрицы PAM должны быть симметричными. Каждая из 20 аминокислот показана сверху и сбоку матрицы с 3 дополнительными неоднозначными аминокислотами . Чаще всего аминокислоты перечислены в алфавитном порядке или перечислены в группах. Эти группы являются характеристиками, общими для аминокислот. [7]

Матрица ПАМ250 с заполненными обеими половинами.

Использование в биоинформатике [ править ]

Определение времени дивергенции в филогенетических деревьях [ править ]

Гипотеза молекулярных часов предсказывает, что скорость замены аминокислот в конкретном белке будет примерно постоянной с течением времени, хотя эта скорость может варьироваться в зависимости от семейства белков. [13] Это говорит о том, что количество мутаций на аминокислоту в белке увеличивается примерно линейно со временем.

Определение времени расхождения двух белков - важная задача филогенетики . Летописи окаменелостей часто используются для определения положения событий на временной шкале эволюционной истории Земли, но применение этого источника ограничено . Однако, если известна скорость, с которой тикают молекулярные часы белкового семейства, то есть скорость, с которой увеличивается количество мутаций на аминокислоту, то знание этого количества мутаций позволит определить дату расхождения.

Предположим, что ищется дата расхождения двух родственных белков, взятых из организмов, живущих сегодня. Оба белка накапливали принятые мутации с момента расхождения, поэтому общее количество мутаций на одну аминокислоту, разделяющую их, примерно вдвое превышает то, что отделяет их от их общего предка . Если диапазон матриц PAM используется для выравнивания двух белков, о которых известно, что они связаны, то значение PAM nматрица, которая дает лучший результат, скорее всего, соответствует мутациям на аминокислоту, разделяющую два белка. Уменьшение вдвое этого значения и деление на скорость, с которой принятые мутации накапливаются в семействе белков, дает оценку времени отклонения этих двух белков от их общего предка. То есть, время расхождения в MYR является [13]

Где - количество мутаций на аминокислоту, а - скорость накопления принятых мутаций в мутациях на аминокислотный сайт за миллион лет.

Использовать в BLAST [ править ]

Матрицы PAM также используются в качестве оценочной матрицы при сравнении последовательностей ДНК или последовательностей белков для оценки качества выравнивания. Эта форма системы подсчета очков используется в широком спектре программного обеспечения для выравнивания, включая BLAST . [15]

Сравнение PAM и BLOSUM [ править ]

Хотя матрицы логарифмических шансов PAM были первыми оценочными матрицами, использованными с BLAST, матрицы PAM в значительной степени были заменены матрицами BLOSUM . Хотя обе матрицы дают одинаковые результаты оценки, они были созданы с использованием разных методологий. Матрицы BLOSUM были сгенерированы непосредственно из аминокислотных различий в выровненных блоках, которые разошлись в разной степени. Матрицы PAM отражают экстраполяцию эволюционной информации на основе близкородственных последовательностей в более длительные периоды времени. [16]Поскольку оценочная информация для матриц PAM и BLOSUM генерировалась очень разными способами, числа, связанные с матрицами, имеют принципиально разные значения; числа для матриц PAM увеличиваются для сравнений между более расходящимися белками, тогда как числа для матриц BLOSUM уменьшаются. [17] Однако все матрицы аминокислотных замен можно сравнить в рамках теоретической информации [18], используя их относительную энтропию.

См. Также [ править ]

  • Точечная мутация
  • Выравнивание последовательности
  • Маргарет Дейхофф
  • Молекулярные часы
  • BLOSUM
  • ВЗРЫВ

Ссылки [ править ]

  1. ^ a b Кэмпбелл Н.А., Рис JB, Мейерс Н., Урри Л.А., Каин М.Л., Вассерман С.А., Минорски П.В., Джексон РБ (2009). «Молекулярные основы наследования». Биология (8-е изд.). Pearson Education Australia. С. 307–325. ISBN 9781442502215.
  2. ^ a b c d Кэмпбелл Н. А., Рис Дж. Б., Мейерс Н., Урри Л. А., Каин М. Л., Вассерман С. А., Минорский П. В., Джексон Р. Б. (2009). «От гена к белку». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 327–350. ISBN 9781442502215.
  3. ^ Pal JK, Ghaskadbi SS (2009). «Повреждение, восстановление и рекомбинация ДНК». Основы молекулярной биологии (1-е изд.). Издательство Оксфордского университета. С.  187–203 . ISBN 9780195697810.
  4. ^ a b c d Кэмпбелл Н. А., Рис Дж. Б., Мейерс Н., Урри Л. А., Каин М. Л., Вассерман С. А., Минорский П. В., Джексон Р. Б. (2009). «Строение и функции крупных биологических молекул». Биология: австралийская версия (8-е изд.). Pearson Education Australia. С. 68–89. ISBN 9781442502215.
  5. Лобо I (январь 2008 г.). «Менделирующие соотношения и летальные гены» . Природное образование . 1 (1): 138.
  6. ^ Б с д е е г Певзнер J (2009). «Попарное выравнивание последовательностей». Биоинформатика и функциональная геномика (2-е изд.). Вили-Блэквелл. С.  58–68 . ISBN 978-0-470-08585-1.
  7. ^ a b c d e f g h i j k Dayhoff MO, Schwartz RM, Orcutt BC (1978). «Модель эволюционного изменения белков». Атлас последовательности и структуры белков (том 5, приложение 3-е изд.). Вашингтон, округ Колумбия: Национальный фонд биомедицинских исследований. С. 345–358. ISBN 978-0-912466-07-1.CS1 maint: date and year (link)
  8. ^ а б в Wing-Kin S (2010). Алгоритмы в биоинформатике: практическое введение . CRC Press. С. 51–52. ISBN 978-1-4200-7033-0.
  9. ^ Kosiol С, Н Голдман (2005). «Различные версии матрицы ставок Dayhoff» . Молекулярная биология и эволюция . 22 (2): 193–9. DOI : 10.1093 / molbev / msi005 . PMID 15483331 . 
  10. ^ Лио P, N Goldman (1998). «Модели молекулярной эволюции и филогении» . Геномные исследования . 8 (12): 1233–44. DOI : 10.1101 / gr.8.12.1233 . PMID 9872979 . 
  11. ^ а б Гусфилд D (1997). Алгоритмы на струнах, деревьях и последовательностях - Информатика и вычислительная биология . Издательство Кембриджского университета. С. 383–384. ISBN 978-0521585194.
  12. ^ Boeckenhauer H, Бонгарц D (2010). Алгоритмические аспекты биоинформатики . Springer. С. 94–96. ISBN 978-3642091001.
  13. ^ a b c Певзнер Дж (2009). «Молекулярная филогения и эволюция». Биоинформатика и функциональная геномика (2-е изд.). Вили-Блэквелл. С.  221–227 . ISBN 978-0-470-08585-1.
  14. ^ Мотвани Р, Р Рагаван (1995). Рандомизированные алгоритмы . Издательство Кембриджского университета. п. 94. ISBN 978-0521474658.
  15. ^ «Статистика оценок сходства последовательностей» . Национальный центр биотехнологической информации . Проверено 20 октября 2013 года .
  16. ^ Henikoff S , Henikoff JG (1992). «Матрицы аминокислотного замещения из белковых блоков» . Труды Национальной академии наук Соединенных Штатов Америки . 89 (22): 10915–10919. Bibcode : 1992PNAS ... 8910915H . DOI : 10.1073 / pnas.89.22.10915 . PMC 50453 . PMID 1438297 .  
  17. Перейти ↑ Saud O (2009). «Матрицы замещения PAM и BLOSUM» . Бирек . Архивировано из оригинала 9 марта 2013 года . Проверено 20 октября 2013 года .
  18. ^ a b Altschul SF (июнь 1991 г.). «Матрицы замещения аминокислот с теоретической точки зрения информации» . Журнал молекулярной биологии . 219 (3): 555–65. DOI : 10.1016 / 0022-2836 (91) 90193-A . PMC 7130686 . PMID 2051488 .  

Внешние ссылки [ править ]

  • http://www.inf.ethz.ch/personal/gonnet/DarwinManual/node148.html
  • http://www.bioinformatics.nl/tools/pam.html Для быстрого расчета матрицы PAM.
  • http://web.expasy.org/docs/relnotes/relstat.html Самая свежая статистика из базы знаний Swiss-Prot по белкам. Раздел 6.1 содержит самые последние частоты аминокислот.