Предсказание структуры белка


Предсказа́ние структу́ры белка́ (англ. protein structure prediction) — направление молекулярного моделирования, предсказание по аминокислотной последовательности трёхмерной структуры белка[1] (вторичной, третичной или четвертичной). Данная задача является одной из самых важных целей биоинформатики и теоретической химии. Данные, полученные при помощи предсказания, применяются в медицине (например, в фармацевтике) и биотехнологии при создании новых ферментов).

Огромные объёмы данных о последовательности белков стали доступны в результате современных широкомасштабных работ по секвенированию ДНК, таких как проект «Геном человека». Несмотря на усилия всего сообщества в области структурной геномики, количество экспериментально определённых белковых структур — обычно с помощью трудоёмкой и относительно дорогой рентгеновской кристаллографии или ЯМР-спектроскопии — значительно отстаёт от количества белковых последовательностей, что делает предсказание третичной структуры белка крайне востребованным[2].

Предсказание структуры белка остаётся чрезвычайно трудной и не до конца разрешённой задачей. Две основные проблемы — это расчёт свободной энергии и нахождение глобального минимума этой энергии[3]. Метод предсказания структуры белка должен исследовать пространство всех возможных структур белка, которое является астрономически большим. Эти проблемы можно частично обойти с помощью сравнительного (гомологического) моделирования[en] и методах распознавания укладки (фолда), в которых пространство поиска сокращается из-за предположения, что рассматриваемый белок принимает структуру, близкую к экспериментально определённой структуре другого гомологичного белка. С другой стороны, методы предсказания структуры белка ab initio должны явно разрешать эти проблемы, не опираясь на начальные предположения[4][5].

В декабре 2020 года команда DeepMind (исследовательского подразделения Google) объявила о решении фундаментальной научной проблемы предсказания структуры белка. Программа, разработанная компанией и основанная на нейросетях, смогла предсказывать структуру белка с высокой точностью.[6]

Альфа-спираль является наиболее распространённым типом вторичной структуры в белках. Альфа-спираль имеет 3,6 аминокислоты на поворот, а Н-связь образуется между каждым четвёртым остатком; средняя длина составляет 10 аминокислот (3 витка) или 10 Å, но варьируется от 5 до 40 (от 1,5 до 11 витков). Выравнивание Н-связей создаёт дипольный момент для спирали с результирующим частичным положительным зарядом на амино-конце спирали. Наиболее распространённое расположение α-спиралей находится на поверхности белков, где они обеспечивают взаимодействие с водной средой[7].