В предсказании структуры белка , статистические потенциалы или потенциалы , основанные на знаниях являются совершение функций , полученных из анализа известных белковых структур в Protein Data Bank (PDB).
Первоначальным методом получения таких потенциалов является квазихимическое приближение , разработанное Миядзавой и Джерниганом. [2] Позже за ним последовал потенциал средней силы (статистическая PMF [Примечание 1] ), разработанный Sippl. [3] Несмотря на то, что полученные оценки часто рассматриваются как аппроксимации свободной энергии -thus называют псевдо-энергии -за физической интерпретация неверна. [4] [5] Тем не менее, они успешно применяются во многих случаях, потому что они часто коррелируют с реальными разностями свободной энергии Гиббса . [6]
Обзор
Возможные признаки, которым может быть назначена псевдоэнергия, включают:
- межатомные расстояния ,
- углы кручения ,
- воздействие растворителей ,
- или геометрия водородной связи .
Однако классическое приложение основано на попарных аминокислотных контактах или расстояниях, что позволяет получить статистические межатомные потенциалы . Для попарных аминокислотных контактов статистический потенциал формулируется в виде матрицы взаимодействия, которая присваивает вес или значение энергии каждой возможной паре стандартных аминокислот . Энергия конкретной структурной модели тогда представляет собой объединенную энергию всех парных контактов (определяемых как две аминокислоты на определенном расстоянии друг от друга) в структуре. Энергии определяются с использованием статистики аминокислотных контактов в базе данных известных структур белков (полученной из PDB ).
История
Начальная разработка
Многие учебники представляют статистические PMF, предложенные Сипплом [3], как простое следствие распределения Больцмана применительно к попарным расстояниям между аминокислотами. Это неверно, но полезно начать с практической реализации построения потенциала. Распределение Больцмана, примененное к конкретной паре аминокислот, определяется следующим образом:
где это расстояние, - постоянная Больцмана , это температура и - статистическая сумма , при этом
Количество - свободная энергия, отнесенная к попарной системе. Простая перестановка приводит к обратной формуле Больцмана , которая выражает свободную энергию как функция :
Чтобы построить PMF, вводится так называемое эталонное состояние с соответствующим распределением и статистическая сумма , и вычисляет следующую разность свободной энергии:
Стандартное состояние обычно является результатом гипотетической системы, в которой отсутствуют специфические взаимодействия между аминокислотами. Второй срок с участием а также можно игнорировать, так как это константа.
На практике, оценивается из базы данных известных структур белков, а обычно является результатом расчетов или моделирования. Например, может быть условной вероятностью нахождения атомы валина и серина на заданном расстоянии друг от друга, что приводит к разности свободной энергии . Полная разность свободной энергии белка,, тогда утверждается, что это сумма всех попарных свободных энергий:
где сумма пробегает все пары аминокислот (с участием ) а также - их соответствующее расстояние. Во многих исследованияхне зависит от аминокислотной последовательности . [7]
Концептуальные вопросы
Интуитивно понятно, что низкое значение указывает на то, что набор расстояний в структуре более вероятен в белках, чем в эталонном состоянии. Однако физический смысл этих статистических PMF широко оспаривается с момента их появления. [4] [5] [8] [9] Основные проблемы:
- Неправильная интерпретация этого «потенциала» как истинного, физически значимого потенциала средней силы ;
- Природа так называемого эталонного состояния и его оптимальная формулировка;
- Справедливость обобщений за пределами попарных расстояний.
Спорная аналогия
В ответ на вопрос, касающийся физической достоверности, первое обоснование статистических PMF было предпринято Sippl. [10] Он основан на аналогии со статистической физикой жидкостей. Для жидкостей потенциал средней силы связан с функцией радиального распределения , который определяется по формуле: [11]
где а также - соответствующие вероятности нахождения двух частиц на расстоянии друг от друга в жидкости и в контрольном состоянии. Для жидкостей эталонное состояние четко определено; он соответствует идеальному газу, состоящему из невзаимодействующих частиц. Двухчастичный потенциал средней силы относится к от:
Согласно теореме об обратимой работе двухчастичный потенциал средней силы - обратимая работа, необходимая для того, чтобы две частицы в жидкости перешли от бесконечного разделения на расстояние друг от друга. [11]
Сиппл оправдал использование статистических PMF через несколько лет после того, как он ввел их для использования в предсказании структуры белков, апеллируя к аналогии с теоремой обратимой работы для жидкостей. Для жидкостей,могут быть экспериментально измерены с помощью малоуглового рассеяния рентгеновских лучей ; для белков,получается из набора известных белковых структур, как объяснено в предыдущем разделе. Однако, как написал Бен-Наим в публикации по этому вопросу: [5]
[...] величины, называемые «статистическими потенциалами», «потенциалами на основе структуры» или «парными потенциалами средней силы», полученные из банка данных белков (PDB), не являются ни «потенциалами», ни «потенциалами». средней силы "в обычном смысле, который используется в литературе по жидкостям и растворам.
Более того, эта аналогия не решает вопроса о том, как определить подходящее референсное состояние для белков.
Машинное обучение
В середине 2000-х годов авторы начали объединять несколько статистических потенциалов, полученных из различных структурных особенностей, в составные баллы . [12] Для этой цели они использовали методы машинного обучения , такие как машины опорных векторов (SVM). Вероятностные нейронные сети (PNN) также применялись для обучения зависящему от позиции статистическому потенциалу, зависящему от расстояния. [13] В 2016 году исследовательская лаборатория искусственного интеллекта DeepMind начала применять методы глубокого обучения для развития статистического потенциала, зависящего от кручения и расстояния. [14] Получившийся в результате метод, названный AlphaFold , выиграл 13-ю Критическую оценку методов прогнозирования структуры белка (CASP), правильно предсказав наиболее точную структуру для 25 из 43 бесплатных областей моделирования .
Объяснение
Байесовская вероятность
Бейкер и его сотрудники [15] обосновали статистические PMF с байесовской точки зрения и использовали эти идеи при построении крупнозернистой энергетической функции ROSETTA . Согласно байесовскому исчислению вероятностей условная вероятность структуры , учитывая аминокислотную последовательность , можно записать как:
пропорционально произведению вероятности раз предыдущий . Предполагая, что вероятность можно аппроксимировать как произведение парных вероятностей, и применяя теорему Байеса , вероятность можно записать как:
где продукт проходит по всем парам аминокислот (с участием ), а также расстояние между аминокислотами а также . Очевидно, что отрицательная величина логарифма выражения имеет ту же функциональную форму, что и классические статистические ПМП с попарным расстоянием, при этом знаменатель играет роль эталонного состояния. У этого объяснения есть два недостатка: оно основано на необоснованном предположении, что вероятность может быть выражена как произведение парных вероятностей, и оно носит чисто качественный характер .
Вероятностная кинематика
Хамелрик и его сотрудники [6] позже дали количественное объяснение статистических потенциалов, в соответствии с которым они аппроксимируют форму вероятностного рассуждения Ричарда Джеффри и назвали вероятностную кинематику . Этот вариант байесовского мышления (иногда называемый « условием Джеффри ») позволяет обновлять априорное распределение на основе новой информации о вероятностях элементов разбиения при поддержке априорного. С этой точки зрения (i) нет необходимости предполагать, что база данных белковых структур, используемая для построения потенциалов, следует распределению Больцмана, (ii) статистические потенциалы легко обобщаются за пределами попарных различий, и (iii) эталонный соотношение определяется предварительным распределением.
Эталонное соотношение
Выражения, которые напоминают статистические PMF, естественным образом являются результатом применения теории вероятностей для решения фундаментальной проблемы, возникающей при прогнозировании структуры белка: как улучшить несовершенное распределение вероятностей по первой переменной используя распределение вероятностей по второй переменной , с участием . [6] Как правило, а также - мелкие и крупнозернистые переменные соответственно. Например, может касаться локальной структуры белка, в то время как может касаться попарных расстояний между аминокислотами. В этом случае,может, например, быть вектором двугранных углов, который определяет все положения атомов (при условии идеальной длины связи и углов). Чтобы объединить два распределения, чтобы локальная структура была распределена в соответствии с, а попарные расстояния будут распределены согласно , необходимо следующее выражение:
где распределение по подразумевается . Соотношение в выражении соответствует PMF. Обычновводится путем выборки (обычно из библиотеки фрагментов) и явно не оценивается; соотношение, которое, напротив, оценивается явно, соответствует PMF Sippl. Это объяснение является количественным и позволяет обобщить статистические PMF от попарных расстояний до произвольных крупнозернистых переменных. Он также обеспечивает строгое определение эталонного состояния, которое подразумевается. Обычные применения статистических PMF с попарными расстояниями обычно не имеют двух необходимых функций, чтобы сделать их полностью строгими: использование правильного распределения вероятностей по попарным расстояниям в белках и признание того, что эталонное состояние строго определяется.
Приложения
Статистические потенциалы используются в качестве энергетических функций при оценке ансамбля структурных моделей, полученных путем моделирования гомологии или распределения белков . Было показано, что множество различных параметризованных статистических потенциалов успешно идентифицируют структуру нативного состояния из ансамбля ложных или неродных структур. [16] Статистические возможности используются не только для предсказания структуры белка , но и для моделирования пути сворачивания белка . [17] [18]
Смотрите также
- Функции подсчета очков для стыковки
- Дискретно оптимизированная энергия белка
- CASP
- CAMEO3D
- Потенциал Леннарда-Джонса
- Потенциал ордеров на облигации
Заметки
- ^ Не путать с фактическим PMF .
Рекомендации
- ^ Постик, Гийом; Hamelryck, Томас; Шомилье, Жак; Стратманн, Дирк (2018). «MyPMFs: простой инструмент для создания статистических потенциалов для оценки структурных моделей белков». Биохимия . 151 : 37–41. DOI : 10.1016 / j.biochi.2018.05.013 . ISSN 0300-9084 . PMID 29857183 .
- ^ Миядзава С., Джерниган Р. (1985). «Оценка эффективных межостаточных контактных энергий из кристаллических структур белка: квазихимическое приближение». Макромолекулы . 18 (3): 534–552. Bibcode : 1985MaMol..18..534M . CiteSeerX 10.1.1.206.715 . DOI : 10.1021 / ma00145a039 .
- ^ а б Сиппл MJ (1990). «Расчет конформационных ансамблей из потенциалов средней силы. Подход к основанному на знаниях предсказанию локальных структур в глобулярных белках». J Mol Biol . 213 (4): 859–883. DOI : 10.1016 / s0022-2836 (05) 80269-4 . PMID 2359125 .
- ^ а б Томас П.Д., Дилл К.А. (1996). «Статистические потенциалы, извлеченные из белковых структур: насколько они точны?». J Mol Biol . 257 (2): 457–469. DOI : 10.1006 / jmbi.1996.0175 . PMID 8609636 .
- ^ а б в Бен-Наим А (1997). «Статистические потенциалы, извлеченные из белковых структур: являются ли эти значимые потенциалы?». J Chem Phys . 107 (9): 3698–3706. Bibcode : 1997JChPh.107.3698B . DOI : 10.1063 / 1.474725 .
- ^ а б в Хамелрик Т., Борг М., Палушевский М. и др. (2010). Цветок DR (ред.). «Потенциалы средней силы для предсказания структуры белка подтверждены, формализованы и обобщены» . PLOS ONE . 5 (11): e13714. arXiv : 1008.4006 . Bibcode : 2010PLoSO ... 513714H . DOI : 10.1371 / journal.pone.0013714 . PMC 2978081 . PMID 21103041 .
- ^ Руман М, Водак С (1995). «Действительно ли потенциалы, полученные из базы данных, пригодны для оценки как прямого, так и инвертированного сворачивания белков?» Protein Eng . 8 (9): 849–858. DOI : 10,1093 / белок / 8.9.849 . PMID 8746722 .
- ^ Коппенштайнер WA, Sippl MJ (1998). «Потенциалы, основанные на знаниях - к истокам». Биохимия Моск . 63 (3): 247–252. PMID 9526121 .
- ^ Шортл D (2003). «Склонности, вероятности и гипотеза Больцмана» . Protein Sci . 12 (6): 1298–1302. DOI : 10.1110 / ps.0306903 . PMC 2323900 . PMID 12761401 .
- ^ Зиппл М.Дж., Ортнер М., Яриц М., Лакнер П., Флокнер Н. (1996). «Свободные энергии Гельмгольца парных взаимодействий атомов в белках» . Сложите Des . 1 (4): 289–98. DOI : 10.1016 / s1359-0278 (96) 00042-9 . PMID 9079391 .
- ^ a b Чендлер Д. (1987) Введение в современную статистическую механику. Нью-Йорк: Издательство Оксфордского университета, США.
- ^ Ерамиан, Давид; Шен, Мин-И; Девос, Дэмиен; Мело, Франсиско; Сали, Андрей; Марти-Реном, Марк (2006). «Составной балл для прогнозирования ошибок в моделях структуры белка» . Белковая наука . 15 (7): 1653–1666. DOI : 10.1110 / ps.062095806 . PMC 2242555 . PMID 16751606 .
- ^ Чжао, Фэн; Сюй, Дзинбо (2012). «Зависящий от положения статистический потенциал для структурных и функциональных исследований белков» . Структура . 20 (6): 1118–1126. DOI : 10.1016 / j.str.2012.04.003 . PMC 3372698 . PMID 22608968 .
- ^ Старший А.В., Эванс Р., Джампер Дж. И др. (2020). «Улучшенное предсказание структуры белка с использованием возможностей глубокого обучения» (PDF) . Природа . 577 (7792): 706–710. Bibcode : 2020Natur.577..706S . DOI : 10.1038 / s41586-019-1923-7 . PMID 31942072 . S2CID 210221987 .
- ^ Саймонс К.Т., Куперберг С., Хуанг Э., Бейкер Д. (1997). «Сборка белковых третичных структур из фрагментов со сходными локальными последовательностями с использованием имитированных функций отжига и байесовской оценки». J Mol Biol . 268 (1): 209–225. CiteSeerX 10.1.1.579.5647 . DOI : 10.1006 / jmbi.1997.0959 . PMID 9149153 .
- ^ Лам С.Д., Дас С., Силлитоэ I, Оренго С. (2017). «Обзор сравнительного моделирования и ресурсов, посвященных крупномасштабному моделированию последовательностей генома» . Acta Crystallogr D . 73 (8): 628–640. DOI : 10.1107 / S2059798317008920 . PMC 5571743 . PMID 28777078 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Kmiecik S и Kolinski A (2007). «Характеристика путей сворачивания белков с помощью моделирования в ограниченном пространстве» . Proc. Natl. Акад. Sci. США . 104 (30): 12330–12335. Bibcode : 2007PNAS..10412330K . DOI : 10.1073 / pnas.0702265104 . PMC 1941469 . PMID 17636132 .
- ^ Адхикари А.Н., Фрид К.Ф., Сосник Т.Р. (2012). «De novo предсказание путей и структуры сворачивания белков с использованием принципа последовательной стабилизации» . Proc. Natl. Акад. Sci. США . 109 (43): 17442–17447. Bibcode : 2012PNAS..10917442A . DOI : 10.1073 / pnas.1209000109 . PMC 3491489 . PMID 23045636 .