Из Википедии, бесплатной энциклопедии
  (Перенаправлено из предсказания структуры Ab initio )
Перейти к навигации Перейти к поиску

В вычислительной биологии , De Novo структура белка предсказание относится к алгоритмическому процессу , с помощью которого белка третичной структура предсказываются из его аминокислотной первичной последовательности . Сама проблема десятилетиями занимала ведущих ученых, но до сих пор остается нерешенной. По данным Science , эта проблема остается одной из 125 нерешенных проблем современной науки. [1] В настоящее время некоторые из наиболее успешных методов имеют разумную вероятность предсказания складок небольших однодоменных белков в пределах 1,5 ангстрем по всей структуре. [2]

Методы de novo, как правило, требуют огромных вычислительных ресурсов и, следовательно, применяются только для относительно небольших белков. Моделирование структуры белка de novo отличается от моделирования на основе шаблонов (TBM) тем, что не используется решенный гомолог интересующего белка, что делает попытки предсказать структуру белка по аминокислотной последовательности чрезвычайно трудными. Прогнозирование структуры белка de novo для более крупных белков потребует более совершенных алгоритмов и больших вычислительных ресурсов, таких как те, которые предоставляются мощными суперкомпьютерами (такими как Blue Gene или MDGRAPE-3) или проектами распределенных вычислений (такими как Folding @ home , Rosetta @ home , Складные проекта Протеого человека , илиПитательный рис для всего мира ). Хотя вычислительные барьеры огромны, потенциальные преимущества структурной геномики (с помощью предсказанных или экспериментальных методов) для таких областей, как медицина и дизайн лекарств, делают предсказание структуры de novo активной областью исследований.

Фон [ править ]

В настоящее время разрыв между известными последовательностями белков и подтвержденными структурами белков огромен. В начале 2008 года только около 1% последовательностей, перечисленных в базе данных UniProtKB, соответствовали структурам в банке данных белков (PDB), оставляя разрыв между последовательностью и структурой примерно в пять миллионов. [3] Экспериментальные методы определения третичной структуры столкнулись с серьезными препятствиями в их способности определять структуры для конкретных белков. Например, в то время как с помощью рентгеновской кристаллографии удалось кристаллизовать примерно 80 000 цитозольных белков, она оказалась гораздо менее успешной в кристаллизации мембранных белков - примерно 280 [4].В свете экспериментальных ограничений, разработка эффективных компьютерных программ для устранения разрыва между известной последовательностью и структурой считается единственно возможным вариантом. [4]

Методы предсказания структуры белка de novo пытаются предсказать третичные структуры из последовательностей на основе общих принципов, которые управляют энергетикой сворачивания белка и / или статистическими тенденциями конформационных характеристик, которые приобретают нативные структуры, без использования явных шаблонов . Исследования в области предсказания структуры de novo были в основном сосредоточены в трех областях: альтернативные представления белков с более низким разрешением, точные энергетические функции и эффективные методы отбора проб.

Общая парадигма для предсказания de novo включает в себя выборку конформационного пространства , управляемую оценочными функциями и другими зависящими от последовательности смещениями, так что генерируется большой набор структур-кандидатов («ложных»). Затем из этих ложных целей выбираются конформации, похожие на нативные, с использованием оценки функций, а также конформерной кластеризации. Уточнение с высоким разрешением иногда используется в качестве последнего шага для точной настройки структур, подобных нативным. Существует два основных класса функций оценки. Физические функции основаны на математических моделях, описывающих аспекты известных Физика молекулярного взаимодействия.Функции, основанные на знаниях, формируются с помощью статистических моделей, отражающих аспекты свойств конформаций нативных белков. [5]

Последовательность аминокислот определяет третичную структуру белка [ править ]

Было представлено несколько доказательств в пользу того, что последовательность первичного белка содержит всю информацию, необходимую для общей трехмерной структуры белка, что делает возможной идею предсказания белка de novo. Во-первых, белки с разными функциями обычно имеют разные аминокислотные последовательности. Во-вторых, несколько различных заболеваний человека, таких как мышечная дистрофия Дюшенна, могут быть связаны с потерей функции белка в результате изменения только одной аминокислоты в первичной последовательности. В-третьих, белки со схожими функциями у многих разных видов часто имеют сходные аминокислотные последовательности. Убиквитин, например, представляет собой белок, участвующий в регуляции деградации других белков; его аминокислотная последовательность почти идентична у видов, так далеко разделенных, как Drosophila melanogasterи Homo sapiens . В-четвертых, мысленным экспериментом можно сделать вывод, что сворачивание белка не должно быть полностью случайным процессом и что информация, необходимая для сворачивания, должна быть закодирована внутри первичной структуры. Например, если мы предположим, что каждый из 100 аминокислотных остатков в небольшом полипептиде может принимать в среднем 10 различных конформаций, что дает 10 ^ 100 различных конформаций для полипептида. Если одно возможное подтверждение проверяется каждые 10 ^ -13 секунд, то на выборку всех возможных конформаций уйдет около 10 ^ 77 лет. Тем не менее, белки всегда правильно складываются в организме в короткие промежутки времени, а это означает, что этот процесс не может быть случайным и, следовательно, потенциально может быть смоделирован.

Одно из самых убедительных доказательств предположения о том, что вся соответствующая информация, необходимая для кодирования третичной структуры белка, находится в первичной последовательности, было продемонстрировано в 1950-х годах Кристианом Анфинсеном.. В классическом эксперименте он показал, что рибонуклеаза А может быть полностью денатурирована путем погружения в раствор мочевины (для разрушения стабилизирующих гидрофобных связей) в присутствии восстанавливающего агента (для расщепления стабилизирующих дисульфидных связей). После удаления белка из этой среды денатурированный и лишенный функции белок рибонуклеазы спонтанно откатился и восстановил функцию, демонстрируя, что третичная структура белка кодируется в первичной аминокислотной последовательности. Если бы белок реформировался случайным образом, могло бы образоваться более сотни различных комбинаций четырех дисульфидных связей. Однако в большинстве случаев белки требуют присутствия молекулярных шаперонов внутри клетки для правильного сворачивания. Общая форма белка может быть закодирована в его аминокислотной структуре,но его сворачивание может зависеть от сопровождающих, помогающих сворачиванию.[6]

  • От начального до высшего
  • Первичная структура артемина человека (Изоформа 1 [UniParc])

  • Стрелка вправо.svg
  • Третичная структура артемина человека (PDB: 2GYR), визуализированная с использованием PyMOL (Delano Scientific Freeware)

Требования к успешному моделированию De Novo [ править ]

Предикторы конформации de novo обычно функционируют путем создания кандидатов конформации (ложных целей) и последующего выбора среди них на основе их термодинамической стабильности и энергетического состояния. Наиболее успешные предсказатели будут иметь следующие три общих фактора:

1) Точная функция энергии, которая соответствует наиболее термодинамически стабильному состоянию нативной структуре белка.

2) Эффективный метод поиска, способный быстро идентифицировать состояния с низкой энергией посредством конформационного поиска.

3) Возможность выбора нативных моделей из коллекции ложных структур [3]

Программы de novo будут искать в трехмерном пространстве и при этом производить конформации белков-кандидатов. По мере того, как белок приближается к своему правильно сложенному, нативное состояние, энтропия и свободная энергия будут уменьшаться. Используя эту информацию, предикторы de novo могут различать ложные цели. В частности, программы de novo будут выбирать возможные подтверждения с более низкими свободными энергиями, которые с большей вероятностью будут правильными, чем структуры с более высокими свободными энергиями. [2] [6] [7] Как заявил Дэвид А. БейкерЧто касается того, как работает его предиктор de novo Rosetta, «во время сворачивания каждый локальный сегмент цепи мигает между разными подмножествами локальных конформаций… сворачивание в нативную структуру происходит, когда конформации, принятые локальными сегментами, и их относительная ориентация позволяют… низкоэнергетические свойства нативных белковых структур. В алгоритме Розетты… программа затем ищет комбинацию этих локальных конформаций, которая имеет наименьшую общую энергию ». [8]

Однако некоторые методы de novo работают, сначала перечисляя все конформационное пространство, используя упрощенное представление структуры белка, а затем выбирая те, которые, скорее всего, будут нативными. Примером этого подхода является подход, основанный на представлении белковых складок с использованием тетраэдрических решеток и построении всех моделей атомов поверх всех возможных конформаций, полученных с использованием тетраэдрического представления. Этот подход был успешно использован в CASP3 для предсказания белковой складки, топология которой ранее не наблюдалась командой Майкла Левитта. [9]

Разрабатывая программу QUARK, Сюй и Чжан показали, что ab initio структура некоторых белков может быть успешно сконструирована с помощью силового поля, основанного на знаниях. [10] [11]

Правильно свернутые белковые конформации (нативные структуры) имеют более низкую свободную энергию, чем частично свернутые или первичные структуры. Компьютеры ищут эти конформации, потому что они указывают на правильное сворачивание.

Стратегии прогнозирования белков [ править ]

Если белок известной третичной структуры разделяет по крайней мере 30% своей последовательности с потенциальным гомологом неопределенной структуры, сравнительные методы, которые перекрывают предполагаемую неизвестную структуру с известной, могут быть использованы для предсказания вероятной структуры неизвестного. Однако ниже этого порога используются три других класса стратегий для определения возможной структуры из исходной модели: ab initio предсказание белка, распознавание свертки и многопоточность.

  1. Методы ab initio: в методах ab initio первоначальная попытка выяснить вторичные структуры (альфа-спираль, бета-лист, бета-поворот и т. Д.) Из первичной структуры осуществляется с использованием физико-химических параметров и алгоритмов нейронной сети. С этого момента алгоритмы предсказывают третичное сворачивание. Одним из недостатков этой стратегии является то, что она еще не способна включать положения и ориентацию боковых цепей аминокислот.
  2. Прогнозирование складок: в стратегиях распознавания складок сначала делается прогноз вторичной структуры, а затем сравнивается либо с библиотекой известных белковых складок, таких как CATH или SCOP, либо с так называемой «периодической таблицей» возможных форм вторичной структуры. Затем вероятным совпадениям присваивается оценка достоверности.
  3. Многопоточность: в стратегиях многопоточности техника распознавания складок расширяется. В этом процессе используются эмпирически обоснованные энергетические функции для взаимодействия пар остатков, чтобы разместить неизвестный белок на предполагаемом остове как наиболее подходящего, при необходимости восполняя пробелы. Затем акцентируются лучшие взаимодействия, чтобы различать потенциальных ловушек и предсказывать наиболее вероятную конформацию.

Цель как стратегии сворачивания, так и стратегии многопоточности состоит в том, чтобы установить, сходна ли свертка неизвестного белка с доменом известного белка, хранящегося в базе данных, такой как банк данных белков (PDB). Это контрастирует с методами de novo (ab initio), где структура определяется с использованием подхода, основанного на физике, вместо сравнения складок в белке со структурами в базе данных. [12]

Ограничения методов прогнозирования De novo [ править ]

Основным ограничением методов предсказания белков de novo является огромное количество компьютерного времени, необходимого для успешного определения нативной конформации белка. Распределенные методы, такие как Rosetta @ home, попытались исправить это, наняв людей, которые затем добровольно занимались простоями домашнего компьютера для обработки данных. Однако даже эти методы сталкиваются с проблемами. Например, распределенный метод использовался группой исследователей из Вашингтонского университета и Медицинского института Говарда Хьюза для предсказания третичной структуры белка T0283 по его аминокислотной последовательности. В слепом тесте, сравнивающем точность этого распределенного метода с экспериментально подтвержденной структурой, депонированной в базе данных белков (PDB), предсказатель показал отличное согласие с депонированной структурой. Тем не мение,время и количество компьютеров, необходимых для этого подвига, были огромными - почти два года и примерно 70 000 домашних компьютеров соответственно.[13]

Один метод, предложенный для преодоления таких ограничений, включает использование моделей Маркова (см. Цепь Маркова Монте-Карло ). Одна из возможностей состоит в том, что такие модели могут быть построены для помощи в вычислении свободной энергии и предсказании структуры белка, возможно, путем уточнения компьютерного моделирования. [14] Другой способ обойти ограничения вычислительной мощности - использовать крупномасштабное моделирование . Крупнозернистые модели белков позволяют de novo предсказывать структуру малых белков или больших фрагментов белка за короткое время вычислений. [15]

Пример распределенных вычислений (Rosetta) в предсказании трехмерной структуры белка по его аминокислотной последовательности. Предсказанная структура (пурпурный) белка накладывается на экспериментально определенную кристаллическую структуру (синий) этого белка. Соглашение между ними очень хорошее.

CASP [ править ]

«Прогресс всех вариантов вычислительных методов прогнозирования структуры белка оценивается в проводимых раз в два года экспериментах по критической оценке прогнозирования структуры белка ( CASP ) в масштабах всего сообщества . В экспериментах CASP исследовательским группам предлагается применить свои методы прогнозирования к аминокислотным последовательностям, для которых нативная структура неизвестна, но будет определена и вскоре будет опубликована. Несмотря на то, что количество аминокислотных последовательностей, полученных с помощью экспериментов CASP, невелико, эти соревнования являются хорошей мерой для оценки методов и прогресса в этой области, возможно, беспристрастным образом ». [16]

Заметки [ править ]

  • Samudrala, R, Xia, Y, Huang, ES, Levitt, M. Ab initio предсказание структуры белка с использованием комбинированного иерархического подхода. (1999). Proteins Suppl 3: 194-198.
  • Bradley, P .; Malmstrom, L .; Qian, B .; Schonbrun, J .; Chivian, D .; Kim, DE; Meiler, J .; Мисура, км; Бейкер, Д. (2005). «Бесплатное моделирование с Rosetta в CASP6». Белки . 61 (Дополнение 7): 128–34. DOI : 10.1002 / prot.20729 . PMID  16187354 . S2CID  36366681 .
  • Бонно ; Бейкер, Д. (2001). «Прогнозирование структуры белка Ab Initio: прогресс и перспективы». Анну. Rev. Biophys. Biomol. Struct . 30 : 173–89. DOI : 10.1146 / annurev.biophys.30.1.173 . PMID  11340057 .
  • Дж. Сколник, Ю. Чжан и А. Колински. Ab Initio моделирование. Структурная геномика и высокопроизводительная структурная биология. М. Сундсром, М. Норин и А. Эдвардс, ред. 2006: 137-162.
  • Дж. Ли, С Ву, И Чжан. Предсказание структуры белков ab initio. От структуры белка к функции с помощью биоинформатики, глава 1, под редакцией DJ Rigden, (Springer-London, 2009), стр. 1-26.

См. Также [ править ]

  • Прогноз структуры белка
  • Программное обеспечение для предсказания структуры белка
  • Белковый дизайн

Ссылки [ править ]

  1. ^ "От редакции: гораздо больше, чтобы знать" . Наука . 309 (5731): 78–102. 2005. DOI : 10.1126 / science.309.5731.78b . PMID 15994524 . 
  2. ^ a b Дилл, Кен А .; и другие. (2007). «Проблема сворачивания белка: когда она будет решена?». Текущее мнение в структурной биологии . 17 (3): 342–346. DOI : 10.1016 / j.sbi.2007.06.001 . PMID 17572080 . 
  3. ^ a b Ригден, Дэниел Дж. От структуры белка к функции с помощью биоинформатики. Springer Science. 2009. ISBN 978-1-4020-9057-8 . 
  4. ^ а б Йонат, Ада. Рентгеновская кристаллография в основе наук о жизни. Текущее мнение в структурной биологии. Том 21, выпуск 5, октябрь 2011 г., страницы 622–626.
  5. ^ Самудрала, R; Линька, Дж. (1998). "Всеатомная зависимая от расстояния дискриминирующая функция условной вероятности для предсказания структуры белка". Журнал молекулярной биологии . 275 (5): 893–914. CiteSeerX 10.1.1.70.4101 . DOI : 10.1006 / jmbi.1997.1479 . PMID 9480776 .  
  6. ^ a b Нельсон, Дэвид Л. и Кокс, Майкл. Принципы биохимии Ленингера, 5-е издание. MWH Freeman; 15 июня 2008 г. ISBN 1429224169 . 
  7. ^ "Лаборатория Бейкера" . Архивировано из оригинала на 2012-11-13.
  8. ^ "Статья новостей Розетты" .
  9. ^ Самудрала, R; Ся, Y; Хуанг, ES; Левитт, М. (1999). « Ab initio предсказание структуры белка с использованием комбинированного иерархического подхода». Белки: структура, функции и генетика . S3 : 194–198. DOI : 10.1002 / (SICI) 1097-0134 (1999) 37: 3+ <194 :: AID-PROT24> 3.0.CO; 2-F .
  10. Xu D, Zhang Y (июль 2012 г.). «Сборка структуры белка Ab initio с использованием фрагментов непрерывной структуры и оптимизированного силового поля, основанного на знаниях» . Белки . 80 (7): 1715–35. DOI : 10.1002 / prot.24065 . PMC 3370074 . PMID 22411565 .  
  11. Xu D, Zhang J, Roy A, Zhang Y (август 2011). «Автоматическое моделирование структуры белка в CASP9 с помощью конвейера I-TASSER в сочетании с ab initio фолдингом на основе QUARK и уточнением структуры на основе FG-MD» . Белки . 79 Дополнение 10: 147–60. DOI : 10.1002 / prot.23111 . PMC 3228277 . PMID 22069036 .  
  12. ^ Гибсон, Грег и Муза, Спенсер В. Учебник по геномной науке, 3-е издание. Sinauer Associates, Inc., 2009. ISBN 978-0-87893-236-8 . 
  13. ^ Qian et al. Предсказание структуры с высоким разрешением и проблема кристаллографической фазы. (2007). Природа. Том 450.
  14. ^ Jayachandran, Guha et al. (2006). Использование массового параллельного моделирования и марковских моделей для изучения сворачивания белков: изучение динамики головного убора ворсинок. Опубликовано в Интернете.
  15. ^ Kmiecik, Себастьян; Гронт, Доминик; Колинский, Михал; Ветеска, Лукаш; Давид, Александра Эльжбета; Колинский, Анджей (22.06.2016). «Крупнозернистые модели белков и их применение» . Химические обзоры . 116 (14): 7898–936. DOI : 10.1021 / acs.chemrev.6b00163 . ISSN 0009-2665 . PMID 27333362 .  
  16. ^ CA Floudas et al. Достижения в предсказании структуры белка и дизайне белка de novo: обзор. Химическая инженерия 61 (2006) 966 - 988.

Внешние ссылки [ править ]

  • CASP
  • Складной @ Home
  • Проект HPF
  • Сложите его
  • UniProtKB
  • Банк данных белков (PDB)
  • Система экспертного анализа протеина - ссылки на инструменты прогнозирования протеина