Прогнозирование белок-белкового взаимодействия

Предсказание белок-белкового взаимодействия - это область, сочетающая биоинформатику и структурную биологию в попытке идентифицировать и каталогизировать физические взаимодействия между парами или группами белков. Понимание межбелковых взаимодействий важно для исследования внутриклеточных сигнальных путей, моделирования структур белковых комплексов и для понимания различных биохимических процессов.

Экспериментально физические взаимодействия между парами белков могут быть выведены с помощью различных методов, включая дрожжевые двугибридные системы, анализы комплементации белок-фрагмент (PCA), аффинную очистку / масс-спектрометрию , белковые микрочипы , резонансный перенос энергии флуоресценции (FRET) и микромасштабный термофорез (MST). Попытки экспериментально определить взаимодействие многих видов продолжаются. Экспериментально определенные взаимодействия обычно служат основой для вычислительных методов прогнозирования взаимодействий, например, с использованием гомологичныхбелковые последовательности разных видов. Однако есть также методы, которые предсказывают взаимодействия de novo , без предварительного знания существующих взаимодействий.

Методы

Белки, которые взаимодействуют, с большей вероятностью будут совместно эволюционировать, ^[1]^[2]^[3]^[4] поэтому можно делать выводы о взаимодействиях между парами белков на основе их филогенетических расстояний. В некоторых случаях также наблюдалось, что пары взаимодействующих белков слились с ортологами у других организмов. Кроме того, ряд связанных белковых комплексов был структурно решен и может быть использован для идентификации остатков, которые опосредуют взаимодействие, так что подобные мотивы могут быть локализованы в других организмах.

Филогенетическое профилирование

Рисунок A. Филогенетические профили четырех генов (A, B, C и D) показаны справа. «1» означает присутствие гена в геноме, а «0» означает отсутствие. Два идентичных профиля генов A и B выделены желтым цветом ^[5] .

Филогенетический профиль Метод основан на предположениичтоесли два или более белков являются одновременно присутствуют или отсутствуют в нескольких геномов, то они, вероятнофункционально связаны. ^[5] Рисунок A иллюстрирует гипотетическую ситуацию, в которой белки A и B идентифицированы как функционально связанные из-за их идентичных филогенетических профилей в 5 различных геномах. Объединенный институт генома предоставляет интегрированную базу данных микробных геномов и микробиомов ( JGI IMG ), в которой есть инструмент для филогенетического профилирования отдельных генов и генных кассет.

Прогнозирование совместно эволюционирующих пар белков на основе сходных филогенетических деревьев

Было замечено, что филогенетические деревья лигандов и рецепторов часто были более похожими, чем из-за случайности. ^[4] Вероятно, это потому, что они столкнулись с аналогичным давлением отбора и эволюционировали вместе. Этот метод ^[6] использует филогенетические деревья пар белков, чтобы определить, существуют ли взаимодействия. Для этого обнаруживаются гомологи интересующих белков (с использованием инструмента поиска последовательностей, такого как BLAST ), и выполняется множественное выравнивание последовательностей (с помощью инструментов выравнивания, таких как Clustal ) для построения матриц расстояний для каждого из интересующих белков. ^[4] Затем матрицы расстояний следует использовать для построения филогенетических деревьев. Однако сравнение филогенетических деревьев затруднено, и современные методы позволяют обойти это, просто сравнивая матрицы расстояний ^[4] . Матрицы расстояний белков используются для расчета коэффициента корреляции, в котором большее значение соответствует совместной эволюции. Преимущество сравнения матриц расстояний вместо филогенетических деревьев заключается в том, что результаты не зависят от используемого метода построения дерева. Обратной стороной является то, что матрицы различий не являются идеальным представлением филогенетических деревьев, и неточности могут возникнуть в результате использования такого ярлыка. ^[4] Еще один фактор, заслуживающий внимания, заключается в том, что есть общие черты между филогенетическими деревьями любых белков, даже тех, которые не взаимодействуют друг с другом. Если оставить это без внимания, это может привести к высокому уровню ложных срабатываний. По этой причине некоторые методы создают фоновое дерево с использованием последовательностей 16S рРНК, которые они используют в качестве канонического дерева жизни. Матрица расстояний, построенная на основе этого древа жизни, затем вычитается из матриц расстояний интересующих белков. ^[7] Однако, поскольку матрицы расстояний РНК и матрицы расстояний ДНК имеют разный масштаб, предположительно потому, что РНК и ДНК имеют разные скорости мутаций, матрицу РНК необходимо масштабировать, прежде чем ее можно будет вычесть из матриц ДНК. ^[7] Используя белки молекулярных часов, можно рассчитать масштабный коэффициент для расстояния до белка / расстояния РНК. ^[7] Этот коэффициент используется для изменения масштаба матрицы РНК.

Рисунок B. Фермент сукцинил-КоА-трансфераза человека представлен двумя синими и зелеными полосами вверху изображения. Альфа-субъединица фермента ацетат-КоА-трансферазы гомологична первой половине фермента, представленной синей полосой. Бета-субъединица фермента ацетат-КоА-трансферазы гомологична второй половине фермента, представленной зеленой полосой. Этот маг был адаптирован из Uetz, P. & Pohl, E. (2018) Взаимодействия белок-белок и белок-ДНК . В: Винк, М. (ред.), Введение в молекулярную биотехнологию, 3-е изд. Wiley-VCH, в печати .

Метод розеттского камня (слияние генов)

Метод розеттского камня или слияния доменов основан на гипотезе о том, что взаимодействующие белки иногда сливаются в один белок. ^[3] Например, два или более отдельных белка в геноме могут быть идентифицированы как слитые в один белок в другом геноме. Отдельные белки, вероятно, будут взаимодействовать и, таким образом, вероятно, функционально связаны. Примером этого является фермент сукцинил-коА-трансфераза человека , который у человека встречается как один белок, но как два отдельных белка, ацетат-коА-трансфераза альфа и ацетат-коА-трансфераза бета , в Escherichia coli . ^[3] Чтобы идентифицировать эти последовательности, необходим алгоритм подобия последовательностей, такой как тот, который используется BLAST . Например, если бы у нас были аминокислотные последовательности белков A и B и аминокислотные последовательности всех белков в определенном геноме, мы могли бы проверить каждый белок в этом геноме на предмет неперекрывающихся областей сходства последовательностей с белками A и B. . Рисунок B показывает выравнивание последовательности BLAST из сукцинила - СоА трансферазы с двумя отдельными гомологами в E.coli. Две субъединицы имеют неперекрывающиеся области сходства последовательностей с человеческим белком, обозначенные розовыми областями, при этом альфа-субъединица подобна первой половине белка, а бета - второй половине. Одним из ограничений этого метода является то, что не все взаимодействующие белки могут быть обнаружены слитыми в другом геноме и, следовательно, не могут быть идентифицированы этим методом. С другой стороны, слияние двух белков не требует их физического взаимодействия. Например, известно, что домены SH2 и SH3 в белке src взаимодействуют. Однако многие белки обладают гомологами этих доменов, и не все они взаимодействуют. ^[3]

Рисунок C. Организация оперона trp у трех различных видов бактерий: Escherichia coli , Haemophilus influenzae , Helicobacter pylori . Только гены trpA и trpB являются соседними у всех трех организмов и, таким образом, предсказано, что они будут взаимодействовать с помощью метода консервативного соседства генов. Это изображение было адаптировано из Dandekar, T., Snel, B., Huynen, M., & Bork, P. (1998). Сохранение порядка генов: отпечаток белков, которые физически взаимодействуют. Направления биохимических наук , 23 (9), 324-328. ^[1]

Сохраненное соседство генов

Метод консервативного соседства основан на гипотезе о том, что если гены, кодирующие два белка, являются соседями по хромосоме во многих геномах, то они, вероятно, функционально связаны. Метод основан на наблюдении Bork et al. сохранения пар генов в девяти бактериальных и архейных геномах. Этот метод наиболее эффективен для прокариот с оперонами, поскольку организация генов в опероне обычно связана с функцией. ^[8] Например, гены trpA и trpB в Escherichia coli кодируют две субъединицы фермента триптофансинтазы, которые, как известно, взаимодействуют и катализируют единственную реакцию. Было показано, что соседство этих двух генов сохраняется в девяти различных бактериальных и архейных геномах. ^[8]

Методы классификации

Методы классификации используют данные для обучения программы (классификатора) различению положительных примеров взаимодействующих пар белок / домен от отрицательных примеров невзаимодействующих пар. Популярные используемые классификаторы - это случайное определение леса (RFD) и машины опорных векторов. RFD дает результаты, основанные на доменном составе взаимодействующих и невзаимодействующих пар белков. Когда дается пара белков для классификации, RFD сначала создает представление пары белков в векторе. ^[9] Вектор содержит все типы доменов, используемых для обучения RFD, и для каждого типа домена вектор также содержит значение 0, 1 или 2. Если пара белков не содержит определенного домена, тогда значение для этого домен равен 0. Если один из белков пары содержит домен, то значение равно 1. Если оба белка содержат домен, то значение равно 2. ^[9] Используя обучающие данные, RFD создает лес решений, состоящий из много деревьев решений. Каждое дерево решений оценивает несколько доменов и на основании наличия или отсутствия взаимодействий в этих доменах принимает решение о том, взаимодействует ли пара белков. Векторное представление пары белков оценивается каждым деревом, чтобы определить, являются ли они взаимодействующей парой или невзаимодействующей парой. Лес подсчитывает весь вклад деревьев, чтобы прийти к окончательному решению. ^[9] Сила этого метода в том, что он не предполагает, что домены взаимодействуют независимо друг от друга. Это позволяет использовать несколько доменов в белках для предсказания. ^[9] Это большой шаг вперед по сравнению с предыдущими методами, которые могли прогнозировать только на основе одной пары доменов. Ограничение этого метода заключается в том, что он полагается на набор обучающих данных для получения результатов. Таким образом, использование разных наборов обучающих данных может повлиять на результаты.

Вывод взаимодействий из гомологичных структур

Эта группа методов ^[10]^[9]^[11]^[12]^[13]^[14] использует известные структуры комплекса белков для прогнозирования и структурного моделирования взаимодействий между последовательностями запрашиваемых белков. Процесс прогнозирования обычно начинается с использования метода на основе последовательностей (например, Interolog ) для поиска структур белковых комплексов, которые гомологичны запрашиваемым последовательностям. Эти известные сложные структуры затем используются в качестве шаблонов для структурного моделирования взаимодействия между последовательностями запросов. Этот метод имеет то преимущество, что не только делает вывод о взаимодействиях белков, но также предлагает модели того, как белки взаимодействуют структурно, что может дать некоторое представление о механизме этого взаимодействия на атомном уровне. С другой стороны, способность этих методов делать прогнозы ограничена ограниченным числом известных структур белковых комплексов.

Методы ассоциации

Методы ассоциации ищут характерные последовательности или мотивы, которые могут помочь различить взаимодействующие и невзаимодействующие пары. Классификатор обучается путем поиска пар «последовательность-сигнатура», где один белок содержит одну сигнатуру последовательности, а его взаимодействующий партнер содержит другую сигнатуру последовательности. ^[15] Они специально ищут сигнатуры последовательности, которые чаще встречаются вместе, чем случайно. При этом используется оценка логарифма шансов, которая вычисляется как log2 (Pij / PiPj), где Pij - наблюдаемая частота доменов i и j, встречающихся в одной паре белков; Pi и Pj - фоновые частоты доменов i и j в данных. Прогнозируемые доменные взаимодействия - это взаимодействия с положительными логарифмическими оценками шансов, которые также имеют несколько вхождений в базе данных. ^[15] Обратной стороной этого метода является то, что он рассматривает каждую пару взаимодействующих доменов отдельно и предполагает, что они взаимодействуют независимо друг от друга.

Выявление структурных паттернов

Этот метод ^[16]^[17] строит библиотеку известных межбелковых интерфейсов из PDB , где интерфейсы определяются как пары полипептидных фрагментов, которые ниже порогового значения, немного превышающего радиус Ван-дер-Ваальса задействованных атомов. Затем последовательности в библиотеке группируются на основе структурного выравнивания, а повторяющиеся последовательности удаляются. Остатки, которые имеют высокий (обычно> 50%) уровень частоты для данной позиции, считаются горячими точками. ^[18] Эта библиотека затем используется для определения потенциальных взаимодействий между парами целей, при условии, что они имеют известную структуру (т.е. присутствуют в PDB ).

Байесовское сетевое моделирование

Байесовские методы ^[19] объединяют данные из самых разных источников, включая как экспериментальные результаты, так и предыдущие вычислительные прогнозы, и используют эти особенности для оценки вероятности того, что конкретное потенциальное взаимодействие с белками является истинно положительным результатом. Эти методы полезны, потому что экспериментальные процедуры, особенно эксперименты с двумя гибридами дрожжей, чрезвычайно шумны и дают много ложных срабатываний, в то время как ранее упомянутые вычислительные методы могут предоставить только косвенные доказательства того, что конкретная пара белков может взаимодействовать. ^[20]

Анализ исключения пары доменов

Анализ исключения пар доменов ^[21] выявляет специфические доменные взаимодействия, которые трудно обнаружить с помощью байесовских методов. Байесовские методы хороши для обнаружения неспецифических беспорядочных взаимодействий и не очень хороши для обнаружения редких специфических взаимодействий. Метод анализа исключения пар доменов вычисляет E-score, который измеряет, взаимодействуют ли два домена. Он рассчитывается как log (вероятность того, что два белка взаимодействуют при условии, что домены взаимодействуют / вероятность того, что два белка взаимодействуют при условии, что домены не взаимодействуют). Вероятности, требуемые в формуле, вычисляются с использованием процедуры максимизации ожиданий, которая представляет собой метод оценки параметров в статистических моделях. Высокие E-баллы указывают на то, что эти два домена, вероятно, будут взаимодействовать, в то время как низкие баллы указывают на то, что другие домены, образующие пару белков, с большей вероятностью несут ответственность за взаимодействие. Недостатком этого метода является то, что он не учитывает ложные срабатывания и ложноотрицания в экспериментальных данных.

Проблема контролируемого обучения

Задачу прогнозирования PPI можно сформулировать как задачу обучения с учителем. В этой парадигме известные белковые взаимодействия контролируют оценку функции, которая может предсказать, существует ли взаимодействие между двумя белками, учитывая данные о белках (например, уровни экспрессии каждого гена в различных экспериментальных условиях, информацию о местоположении, филогенетический профиль и т. .).

Связь с методами стыковки

Область предсказания белок-белкового взаимодействия тесно связана с областью стыковки белок-белок , которая пытается использовать геометрические и стерические соображения, чтобы подогнать два белка известной структуры в связанный комплекс. Это полезный метод исследования в тех случаях, когда оба белка в паре имеют известные структуры и, как известно (или, по крайней мере, сильно подозревается), что они взаимодействуют, но поскольку так много белков не имеют экспериментально определенных структур, методы прогнозирования взаимодействия на основе последовательностей являются особенно полезно в сочетании с экспериментальными исследованиями интерактома организма .

Смотрите также

Интерактом
Белок-белковое взаимодействие
Макромолекулярная стыковка
Предиктор сайта взаимодействия белок-ДНК
Двухгибридный скрининг
Программное обеспечение для предсказания структуры белка
FastContact

Внешние ссылки

Обзор баз данных о взаимодействии белков
ChiPPI : Серверное белок- белковое взаимодействие химерных белков.

[Dandekar-1] Dandekar T., Snel B., Huynen M. и Bork P. (1998) "Сохранение порядка генов: отпечаток белков, которые физически взаимодействуют". Trends Biochem. Sci. (23), 324-328

[Enright-2] Энрайт AJ, Илиопулос И., Kyripides NC и Ouzounis CA (1999) «Взаимодействие Протеин карты для полных геномовоснове слияния генов событий.» Природа (402), 86-90

[Marcotte-3] Marcotte EM, Pellegrini M., Ng HL, Rice DW, Yeates TO, Eisenberg D. (1999) «Определение функции белка и белок-белковых взаимодействий из последовательностей генома». Наука (285), 751-753

[Pazos-4] Pazos, F .; Валенсия, А. (2001). «Сходство филогенетических деревьев как индикатор белок-белкового взаимодействия» . Белковая инженерия . 9 (14): 609–614. DOI : 10,1093 / белок / 14.9.609 . PMID 11707606 .

[:0-5] а б Раман, Картик (15.02.2010). «Построение и анализ сетей белок-белкового взаимодействия» . Автоматизированное экспериментирование . 2 (1): 2. DOI : 10,1186 / 1759-4499-2-2 . ISSN 1759-4499 . PMC 2834675 . PMID 20334628 .

[Tan-6] Tan SH, Zhang Z., Ng SK (2004) «СОВЕТ: Автоматическое обнаружение и проверка взаимодействия путем совместной эволюции». Nucl. Ac. Res. , 32 (выпуск веб-сервера): W69-72.

[PazosRanea-7] а б в Пазос, Ф; Ranea, JA; Хуан, Д.; Штернберг, MJ (2005). «Оценка коэволюции белков в контексте древа жизни помогает в предсказании интерактома». J Mol Biol . 352 (4): 1002–1015. DOI : 10.1016 / j.jmb.2005.07.005 . PMID 16139301 .

[:1-8] а б Дандекар, Т. (1 сентября 1998 г.). «Сохранение порядка генов: отпечаток белков, которые физически взаимодействуют». Направления биохимических наук . 23 (9): 324–328. DOI : 10.1016 / S0968-0004 (98) 01274-2 . ISSN 0968-0004 . PMID 9787636 .

[Chen-9] а б в г д Чен, XW; Лю, М. (2005). «Прогнозирование белок-белковых взаимодействий с использованием структуры леса случайных решений» . Биоинформатика . 21 (24): 4394–4400. DOI : 10.1093 / биоинформатики / bti721 . PMID 16234318 .

[Aloy-10] Aloy, P .; Рассел, РБ (2003). «InterPreTS: предсказание взаимодействия белков через третичную структуру» . Биоинформатика . 19 (1): 161–162. DOI : 10.1093 / биоинформатики / 19.1.161 . PMID 12499311 .

[Fukuhara-11] Фукухара, Наоши и Такеши Кавабата. (2008) «HOMCOS: сервер для предсказания взаимодействующих белковых пар и взаимодействующих сайтов путем моделирования гомологии сложных структур» Nucleic Acids Research , 36 (S2): 185-.

[Kittichotirat-12] Киттихотират В., М. Геркин, Р. Е. Бумгарнер и Р. Самудрала (2009) «Protinfo PPC: веб-сервер для предсказания на атомном уровне белковых комплексов» Nucleic Acids Research , 37 (выпуск веб-сервера): 519-25.

[Ibis-13] Сапожник, BA; Чжан, Д; Тангуду, Р.Р .; Тяги, М; Фонг, JH; Марчлер-Бауэр, А; Брайант, SH; Madej, T; Панченко, А.Р. (январь 2010 г.). «Сервер предполагаемого биомолекулярного взаимодействия - веб-сервер для анализа и прогнозирования партнеров по взаимодействию с белками и сайтов связывания» . Nucleic Acids Res . 38 (выпуск базы данных): D518–24. DOI : 10.1093 / NAR / gkp842 . PMC 2808861 . PMID 19843613 .

[Esmaielbeiki-14] Esmaielbeiki, R; Небель, JC (2014). «Оценка стыковки конформаций с использованием предсказанных интерфейсов белков» . BMC Bioinformatics . 15 : 171. DOI : 10,1186 / 1471-2105-15-171 . PMC 4057934 . PMID 24906633 .

[Sprinzak-15] а б Sprinzak, E; Маргалит, H (2001). «Коррелированные сигнатуры последовательностей как маркеры межбелкового взаимодействия». J Mol Biol . 311 (4): 681–692. DOI : 10.1006 / jmbi.2001.4920 . PMID 11518523 .

[Aytuna-16] Aytuna, AS; Кескин, О .; Гурсой, А. (2005). «Прогнозирование белок-белковых взаимодействий путем объединения структуры и сохранения последовательности в границах раздела белков» . Биоинформатика . 21 (12): 2850–2855. DOI : 10.1093 / биоинформатики / bti443 . PMID 15855251 .

[Ogmen-17] Огмен, У .; Кескин, О .; Aytuna, AS; Нусинов, Р .; Гурсой, А. (2005). «ПРИЗМА: белковые взаимодействия путем структурного соответствия» . Nucl. AC. Res . 33 (выпуск веб-сервера): W331–336. DOI : 10.1093 / NAR / gki585 . PMC 1160261 . PMID 15991339 .

[Keskin-18] Кескин, О .; Ma, B .; Нусинов, Р. (2004). «Горячие области во взаимодействиях белок-белок: организация и вклад структурно консервативных остатков горячих точек». J. Mol. Биол . 345 (5): 1281–1294. DOI : 10.1016 / j.jmb.2004.10.077 . PMID 15644221 .

[Jansen-19] Jansen, R; Yu, H; Гринбаум, Д; Kluger, Y; Кроган, штат Нью-Джерси; Чанг, S; Эмили, А; Снайдер, М; Гринблатт, Дж. Ф.; Герштейн, М (2003). «Байесовский сетевой подход для прогнозирования белок-белковых взаимодействий на основе геномных данных». Наука . 302 (5644): 449–53. Bibcode : 2003Sci ... 302..449J . CiteSeerX 10.1.1.217.8151 . DOI : 10.1126 / science.1087361 . PMID 14564010 . S2CID 5293611 .

[20] Zhang, QC; Петри, Д; Дэн, L; Цян, L; Ши, Й; Чт, штат Калифорния; Бисикирская, Б; Лефевр, К; Accili, D; Хантер, Т; Маниатис, Т; Калифано, А; Хониг, Б. (2012). «Основанное на структуре предсказание белок-белковых взаимодействий в масштабе всего генома» . Природа . 490 (7421): 556–60. Bibcode : 2012Natur.490..556Z . DOI : 10.1038 / nature11503 . PMC 3482288 . PMID 23023127 .

[Shoemaker-21] Сапожник, BA; Панченко, А.Р. (2007). «Расшифровка белок-белковых взаимодействий. Часть II. Вычислительные методы для прогнозирования белков и партнеров взаимодействия домена» . PLOS Comput Biol . 3 (4): e43. Bibcode : 2007PLSCB ... 3 ... 43S . DOI : 10.1371 / journal.pcbi.0030043 . PMC 1857810 . PMID 17465672 .

[1]