Привет! Это Маша Синдеева, научный сотрудник группы дизайна белков AIRI. Основное направление нашей группы — это разработка ИИ‑моделей для задач, связанных с дизайном белков.

В этом посте я постараюсь рассказать о том, что такое белки, как устроен процесс их дизайна, и как с этим может помочь наша новая статья AFToolkit: a framework for molecular modeling of proteins with AlphaFold‑derived representations, которая вышла в журнале Briefings in Bioinformatics, и которую мы написали вместе с ребятами из группы органической химии AIRI.

Что такое белки

Белки — это род грызунов семейства беличьих молекулы жизни. Их часто так называют, потому что они выполняют множество ключевых функций, обеспечивающих жизненные процессы в живых организмах: например, позволяют организму иметь форму, расти и двигаться.

Белки бывают абсолютно разные по размерам, происхождению и функциям, которые они выполняют. Всем известный коронавирус SARS‑CoV-2, как и большинство вирусов, имеет оболочку, состоящую из белков. Для попадания в клетку спайк‑белок (шип) на его поверхности связывается с человеческим белком ACE2. А спасаемся мы от него тоже с помощью белков: один из механизмов иммунного ответа заключается в том, что наши антитела, тоже являющиеся белками, связывают спайк‑белки на поверхности коронавируса. Это нейтрализует вирус: теперь связанный спайк‑белок не сможет связаться с ACE2 и инфицировать клетку. Когда мы прививаемся, в нашем организме так или иначе появляется кусочек коронавирусного белка, и наша иммунная система воспроизводит этот процесс иммунного ответа. Для разработки прививки в таком случае нам нужно заниматься белковым дизайном, то есть подбирать такой белок, который вызовет необходимый иммунный ответ, будет безопасен для человека, и который возможно доставить в организм.

Иллюстрация нейтрализации вируса SARS-CoV-2 антителами: занятые ими кусочки RBD-домена коронавируса не могут связаться с ACE2. Источник: Peter C. Taylor et al. / Nature.
Иллюстрация нейтрализации вируса SARS‑CoV-2 антителами: занятые ими кусочки RBD‑домена коронавируса не могут связаться с ACE2. Источник: Peter C. Taylor et al. / Nature.

Это всего лишь один пример из огромного множества возможных направлений в области дизайна белков, но он хорошо иллюстрирует, что многие процессы в живых организмах регулируются именно белками, а также подчеркивает важность разработки инструментов для их дизайна: как в «мокрых» лабораториях (in vitro), так и вычислительных (in silico).

Но мы забежали очень далеко вперед. Давайте сначала разберемся, как же устроены эти молекулы жизни.

Как устроены белки?

Белки — это макромолекулы, состоящие из молекул поменьше: аминокислот. Всего разных аминокислот, которые могут участвовать в построении белков, 20 (остановимся пока только на классических вариантах). Аминокислоты соединяются в цепочки, образуя белковую последовательность или последовательность остатков белка. Длины таких цепочек бывают очень разными: от нескольких аминокислот (такие короткие белки называются пептидами) до десятков тысяч (спайк‑белок коронавируса, например, состоит из 1273 аминокислот).

Может показаться, что такие огромные молекулы могут выглядеть абсолютно как угодно, но на самом деле в белках не так много степеней свободы. Дело в том, что все аминокислоты имеют похожую структуру: каждая имеет одинаковый «костяк» или основную цепь — из альфа‑атома углерода C, аминогруппы NH2 и карбоксильной группы COOH. А отличает их друг от друга так называемая боковая цепь, которая у каждой аминокислоты своя. Чтобы образовать цепочку белка, аминокислоты связываются определенным образом: пептидной связью — углерод карбоксильной группы одной аминокислоты ковалентно связывается с азотом аминогруппы другой аминокислоты. Получается одна длинная основная цепочка белка или бэкбоун (backbone):

В этой формуле одним цветом изображены атомы одного остатка
В этой формуле одним цветом изображены атомы одного остатка
Общая схема структуры аминокислот. Источник: www.chem.ucla.edu.
Общая схема структуры аминокислот. Источник: www.chem.ucla.edu.

Каждый остаток может быть повернут относительно другого, и это вращение задается двумя торсионными углами. Боковые цепи некоторых аминокислот также могут иметь до 4 степеней свободы в виде углов вращения атомов боковых цепей относительно друг друга.

Белки обычно не существуют в виде развернутых длинных цепочек. Цепочки аминокислот проходят процедуру фолдинга — это спонтанный процесс, при котором цепочка аминокислот сворачивается в стабильную нативную конформацию. Остатки белка взаимодействуют друг с другом и элементами среды, в которой они находятся, формируя белковую структуру.

Атомы бэкбоуна, принадлежащие к разным остаткам, могут взаимодействовать друг с другом, формируя вторичную структуру белка. Так, за счет водородных связей между аминогруппами и карбонильными группами разных остатков цепочка аминокислот может образовывать альфа‑спирали (спиралевидная укладка) или бета‑листы (почти плоская укладка). Возможны и менее структурированные участки (например, петли).

Слева — 20 аминокислот. Справа — формирование цепочки белка и конформации, которую эта цепочка принимает при фолдинге: три альфа-спирали и два бета-листа, соединенные петлями. Источник: nobelprize.org. 
Слева — 20 аминокислот. Справа — формирование цепочки белка и конформации, которую эта цепочка принимает при фолдинге: три альфа‑спирали и два бета‑листа, соединенные петлями. Источник: nobelprize.org.

Каждая из 20 аминокислот имеет однобуквенное обозначение, так что последовательность каждого белка можно записать в виде строки, например:

Структура, стабильность и мутации

Можно ли экспериментально получить структуру белка, то есть координаты каждого атома, составляющего каждую аминокислоту белка? Да, это можно сделать с помощью рентгеноструктурного анализа, ЯМР‑спектроскопии или криоэлектронной микроскопии. Полученные структуры часто хранятся в виде PDB‑файлов, в котором каждая строчка содержит информацию об одном атоме: его элемент, номер остатка в белковой цепи, к которому он принадлежит, его 3D‑координаты и т. п.

Что же определяет структуру белка? Один из фундаментальных принципов молекулярной биологии — это гипотеза Анфинсена. Она утверждает, что нативная трёхмерная структура белка в его стандартной физиологической среде полностью определяется только его аминокислотной последовательностью. Это не абсолютно строгий закон: некоторые белки могут иметь несколько устойчивых конформаций (тот же спайк‑белок имеет открытую и закрытую конформации) или не иметь стабильных конформаций (внутренне‑неупорядоченные белки IDP). Тем не менее гипотеза Анфинсена является верной для большинства известных белков, что делает возможным постановку задачи предсказания структуры белка по его последовательности.

Один из способов оценки стабильности конформации белка — это измерение \Delta G, то есть изменения свободной энергии. Это разница между значениями энергии Гиббса для белка в свёрнутом и развёрнутом состояниях \Delta G = G_{\text{folded}} - G_{\text{unfolded}}. Чем \Delta G меньше, тем труднее денатурировать белок, и его стабильность выше.

Цепочки белков могут взаимодействовать друг с другом, образуя белковые комплексы. Стабильность белкового комплекса также можно оценить с помощью свободной энергии Гиббса. Для белковых комплексов из двух цепочек A и B стабильность (энергия связывания белкового комплекса) выражается как разница энергии комплекса и его субъединиц: \Delta \Delta G = \Delta G_{\text{complex}} - \Delta G_{A} - \Delta G_{B}.

В белках могут возникать мутации — когда к исходному (референсному или wildtype) белку применяется одна или несколько следующих операций:

  • замена (один или несколько остатков заменяются на другие),

  • инсерция (один или несколько остатков добавляются в цепочку),

  • делеция (один или несколько остатков удаляются из цепочки).

Эффект мутаций в белках можно оценивать по‑разному. Можно оценивать влияние мутаций на стабильность конформации, опять же, через свободную энергию Гиббса, взяв разницу энергий мутантного и wildtype белков: \Delta \Delta G = \Delta G_{\text{mutant}} - \Delta G_{\text{wildtype}}

А ещё в контексте мутаций часто бывает важно понять, продолжает ли белок выполнять свою функцию в результате произошедших мутаций. В подобных исследованиях можно встретить информацию в виде бинарного признака — сохраняется функция или нет — или в виде численного изменения. Например, для флуоресцентного белка GFP хорошо изучены эффекты мутаций на изменение интенсивности флуоресценции.

Стоит отметить, что стабильность белка и его функциональность связаны между собой: часто именно конформация белка определяет его способность выполнять необходимую функцию. Если по какой‑то причине мутации делают прежнюю конформацию белка нестабильной, скорее всего это приведет и к потере его функции.

Дизайн белков и AlphaFold

Теперь, когда мы разобрались с тем, как устроены белки и как оценивать эффект мутаций, самое время задаться вопросом: зачем? Чтобы заниматься дизайном белков, конечно!

Обычно дизайн белков происходит с целью получения/улучшения какой‑либо функции: сделать белок, который будет ярче светиться, или белок, который будет прочнее связываться с заданной мишенью, и т. п. Этого можно добиться, взяв за основу один или несколько известных белков и внося в них мутации, чтобы добиться желаемого эффекта, а можно заниматься de novo дизайном, то есть пытаться создать белок с желаемой функцией или структурой без опоры на существующие. Для обоих подходов важно уметь быстро оценивать свойства новых белков: оценивать влияние мутаций на стабильность и функцию белка или предсказывать их структуру. Тут‑то на помощь и приходят in silico методы.

За что дали Нобелевку по химии? 

В 2024 году Нобелевская премия по химии была присуждена совместно Дэвиду Бейкеру «за вычислительный дизайн белков» и Демису Хассабису и Джону Джамперу «за предсказание структуры белков». Дэвид Бейкер еще в 1998 разработал программу Rosetta для предсказания структуры белков по последовательности аминокислот. Она использовала метод Монте‑Карло для сборки бэкбоуна белка из небольших (от 3 до 9 остатков) фрагментов известных структур.

К 2000-му году в Rosetta был добавлен протокол RosettaDesign: метод, позволяющий подобрать последовательность аминокислот к нужному бэкбоуну за счет оптимизации функции энергии белка Rosetta с помощью поиска Монте‑Карло. Благодаря Rosetta и RosettaDesign, в 2003 году был смоделирован, а затем получен экспериментально белок Top7 — первый de novo белок с принципиально новым глобулярным фолдом: топология этого белка до сих пор не была встречена в природе. За разработку программы Rosetta, позволившую разработать белок Top7 и огромное множество других белков, Бейкер и получил Нобелевскую премию.

Белок Top7, первый de novo белок с принципиально новым глобулярным фолдом, полученный с помощью Rosetta. Источник: nobelprize.org. 
Белок Top7, первый de novo белок с принципиально новым глобулярным фолдом, полученный с помощью Rosetta. Источник: nobelprize.org.

Кстати, Rosetta поддерживается и популярна для дизайна белков и сейчас, а Дэвид Бейкер руководит Институтом дизайна белков, который разрабатывает ИИ‑инструменты для дизайна белков: например, нейросеть для предсказания полноатомной структуры белка RoseTTAFold All‑Atom и диффузионную модель для генерации белков RFDiffusion2.

Белки, полученные с помощью Rosetta. Источник: nobelprize.org.
Белки, полученные с помощью Rosetta. Источник: nobelprize.org.

Премию Бейкер делит с Демисом Хассабисом и Джоном Джампером, которые возглавили разработку модели AlphaFold2 для предсказания структуры белков по последовательности аминокислот. Предсказанием структуры белков ученые занимаются еще с 1970-х годов, а с 1994-го года существует соревнование CASP (Critical Assessment of Structure Prediction), которое служит бенчмарком существующих методов.

Главный прорыв AlphaFold2 заключается в том, что он позволяет предсказывать структуру белка с почти экспериментальной точностью. На соревновании по предсказанию структур белков CASP14 AlphaFold2 занял первое место, достигнув медианной точности 0.98­ Å (а в 2/3 случаев точность достигла экспериментального уровня), тогда как следующий лучший метод предсказывал структуры с медианной точностью в 2.8 Å.

Вместе с публикацией модели в 2021-м году авторы выпустили обновление базы данных белков AlphaFoldDB, предсказанных с помощью AlphaFold2. На момент первого релиза авторы предоставили 350K предсказанных структур, а на момент написания этого поста AlphaFoldDB содержит уже более 200M структур, тогда как крупнейшая база экспериментальных данных Protein Data Bank (RCSB PDB) содержит всего ~240K структур.

Структуры белков, предсказанные с помощью AlphaFold2. Источник: nobelprize.org. 
Структуры белков, предсказанные с помощью AlphaFold2. Источник: nobelprize.org.

Как работает AlphaFold2?

По архитектуре AlphaFold2 — это трансформерная нейросеть, принимающая до трёх входов:

  • Последовательность белка, для которого предсказывается структура.

  • Multiple Sequence Alignment (MSA). Для входной последовательности можно произвести поиск похожих белковых последовательностей по базе всех известных, в том числе белков других организмов. Эти последовательности выравниваются на входную и подаются (опционально) в модель.

  • Структурные шаблоны (templates). Для найденных последовательностей из MSA можно также произвести поиск по структурным базам данных и подать на вход (опционально) их структурную информацию: one‑hot последовательность аминокислот, координаты C_{\alpha}-атомов, дистограмма C_{\beta}-атомов, углы кручения и т. д.

Пример данных MSA. Верхняя последовательность — это входная последовательность белка, для которой мы делаем предсказания. Под ней последовательности других белков из других организмов, выровненные на входную. На примере видно, что какие‑то части белков сохранились у разных организмов в процессе эволюции. Возможно, эти консервативные регионы функционально важны для целой группы организмов и должны сохранять определенную структуру для её выполнения — AlphaFold2 может научиться использовать эту информацию для предсказания структуры входного белка. Источник: nobelprize.org.
Пример данных MSA. Верхняя последовательность — это входная последовательность белка, для которой мы делаем предсказания. Под ней последовательности других белков из других организмов, выровненные на входную. На примере видно, что какие‑то части белков сохранились у разных организмов в процессе эволюции. Возможно, эти консервативные регионы функционально важны для целой группы организмов и должны сохранять определенную структуру для её выполнения — AlphaFold2 может научиться использовать эту информацию для предсказания структуры входного белка. Источник: nobelprize.org.

Данные MSA и templates — это опциональные входы, AlphaFold2 может предсказать структуру, и не имея этой информации, но качество предсказания при этом ухудшится. Количество последовательностей MSA и шаблонных структур, подающихся на вход, может меняться от белка к белку, в зависимости от числа доступных гомологов. В целом, для улучшения качества предсказаний лучше подать на вход как можно больше гомологов и их структур. Но подбор гомологов и формирование выравнивания MSA может занимать значительное время, а некоторые белки (например, de novo) могут вообще не иметь или иметь мало гомологов, и для них MSA‑вход может не существовать или не иметь смысла.

Все входные данные используются для обновления внутренних MSA‑представлений и парных представлений (pair representations). MSA‑представления — это 3D‑тензор: по одному вектору на каждый остаток каждой последовательности из MSA; в парных же представлениях хранится по одному вектору на каждую пару остатков входной последовательности. Оба они проходят через стэк геометрических трансформерных слоёв Evoformer, после чего 2D‑матрица представлений, соответствующая входной последовательности (single representations) в тензоре MSA, вместе с парными представлениями подаётся в структурный модуль для предсказания 3D‑структуры белка. Полученные координаты и представления переиспользуются (recycling), чтобы запустить ещё одну итерацию предсказания структуры.

Архитектура AlphaFold2. Источник: John Jumper et al. / Nature.
Архитектура AlphaFold2. Источник: John Jumper et al. / Nature.

На выходе AlphaFold2 предсказывает:

  • Полноатомную структуру белка, то есть координаты каждого атома каждого остатка белка.

  • Дистограмму — 2D‑матрицу расстояний между остатками.

  • Скоры уверенности в своих структурных предсказаниях. LDDT и TM‑score — это метрики соответствия белковых структур заданной референсной структуре. AlphaFold2 предсказывает значения этих метрик — predicted LDDT (pLDDT) и predicted TM‑score (pTM) — для оценки соответствия предсказанной им структуры экспериментально полученной структуре белка.

Модель AlphaFold2 оказалась полезной не только для предсказания структур белков, но и для решения ряда других задач дизайна белков:

  • De novo дизайн последовательности белка. Инструмент AFDesign производит поиск белковой последовательности, которая примет заданную структуру, путем оптимизации входа предобученного AlphaFold2.

  • Итеративная оптимизация последовательности белка.

  • Оценка designability новых белков. Предсказанные скоры уверенности AlphaFold2 часто используются для скоринга и фильтрации новых белковых последовательностей: предполагается, что последовательности, для которых AlphaFold2 с большой уверенностью предсказывает структуру, с большей вероятностью будут стабильны и примут предсказанный фолд.

  • Обучение моделей на основе эмбеддингов AlphaFold2. Некоторые методы используют файн‑тюнинг AlphaFold2 или эмбеддинги с его последних слоёв для обучения моделей различных белковых задач, например для предсказания специфичности связывания пептидов или предсказания эффектов мутаций.

Помимо этого, AlphaFold2 даже в отсутствие коэволюционной информации из MSA позволяет оценить «корректность» кандидатной структуры белка. То есть, если для одной последовательности белка есть несколько кандидатных структур, то можно для каждой из них подать на вход последовательность белка и кандидатную структуру в качестве template и использовать скоры уверенности полученных предсказаний для того, чтобы корректно отранжировать кандидатов. Проще говоря, если есть набор конформаций, например, структуры других похожих белков, то с помощью скоров уверенности AlphaFold2 можно отранжировать, какую из них вероятнее всего белок примет при фолдинге.

Лучше всего эта задача решается, если внести в AF2 ряд небольших изменений, а именно замаскировать в кандидатной структуре все атомы, не относящиеся к бэкбоуну, и заменить последовательность на специальные GAP‑токены. Такой инструмент с данными модификациями авторы назвали AF2Rank. В теории это позволяет нам решать задачу вида «по данной последовательности и данному бэкбоуну другого белка предскажи конечную структуру, в которой данная последовательность укладывается в похожий фолд». Но, как отмечают сами авторы метода, при использовании AF2Rank предсказанная структура отличается от входной «предложенной», тогда как нам было бы интересно максимально приблизиться к ней.

Также было показано, что скоры уверенности AlphaFold2 плохо справляются с предсказанием эффектов малого числа мутаций, а именно: разница pLDDT мутантной и wildtype структур плохо коррелирует с изменением стабильности белка \Delta \Delta G, вызванным мутацией. У нас родилась гипотеза, что из‑за большого влияния структурных templates на каждой recycling‑итерации предсказанные AlphaFold2 мутантные структуры оказываются слишком похожи на wildtype‑структуры, из‑за чего изменения в скорах уверенности не могут служить хорошим предиктором эффектов мутаций.

Итак, перед собой мы поставили задачу модифицировать пайплайн AF2 так, чтобы:

  • Была возможность оценивать «корректность» кандидатной структуры: показывать хорошую способность ранжировать кандидатов с помощью скоров уверенности, но и одновременно с этим предсказывать структуру, близкую к кандидатской.

  • Иметь возможность предсказывать эффекты малого числа мутаций.

AFToolkit

Так появился наш фреймворк под названием AFToolkit. В своей работе мы остановились на следующем перечне изменений:

  • Не подавать на вход MSA. За счет этого мы можем работать с белками, у которых нет гомологов.

  • Замаскировать template‑вход на каждой recycling‑итерации. Так мы рассчитываем понизить влияние структуры входного шаблона и получить модель, способную лучше оценивать эффекты мутаций.

  • В случае оценки эффекта мутации подавать как шаблон структуру wildtype, но маскировать в мутированных остатках боковые цепи (в случае инсерции/делеции добавлять/исключать замаскированный остаток без боковой цепи).

Это очень похоже на модификацию, предложенную AF2Rank. Ключевое отличие заключается в том, что AF2Rank уменьшает влияние template путем маскирования его последовательности, а AFToolkit — путем маскирования всех template входов, начиная с первой recycling‑итерации (далее назовем эту модификацию mask).

Схема пайплайна предсказаний в нашей работе AFToolkit
Схема пайплайна предсказаний в нашей работе AFToolkit

Результаты

Вслед за авторами AF2Rank, чтобы проверить способность модифицированного нами AlphaFold2 оценивать «корректность» кандидатной структуры для последовательности белка, мы рассматриваем задачу ранжирования предсказанных структур по их схожести с нативной структурой данного белка. Для этого мы смотрим корреляцию Спирмана между скорами уверенности (pLDDT, pTM) и TM score между кандидатом и нативной структурой. Мы также проверяем, что выходная структура не сильно отличается от шаблона: смотрим на TM score между входной кандидатной структурой и выходной предсказанной. После трех итераций recycling'а mask‑метод достигает такого же качества в задаче ранжирования, как и AF2Rank, при этом предсказывая структуру с бо́льшим TM score.

Результаты на задаче предсказания “корректности” кандидатной структуры в зависимости от количества recycling-итераций. Графики 1-3: корреляция скоров уверенности с рангом кандидатной структуры. График 4: TM score между кандидатной структурой и предсказанной.
Результаты на задаче предсказания «корректности» кандидатной структуры в зависимости от количества recycling‑итераций. Графики 1-3: корреляция скоров уверенности с рангом кандидатной структуры. График 4: TM score между кандидатной структурой и предсказанной.

На задаче оценки эффекта мутаций mask‑метод также демонстрирует преимущество предложенных нововведений:

Корреляция Спирмана между предсказаниями SVM, построенных на эмбеддингах AlphaFold2, и экспериментальными значениями  на (A) датасете множественных мутаций PTMul, (B) датасете единичных мутаций s669
Корреляция Спирмана между предсказаниями SVM, построенных на эмбеддингах AlphaFold2, и экспериментальными значениями \Delta \Delta G на (A) датасете множественных мутаций PTMul, (B) датасете единичных мутаций s669

Далее мы более детально оцениваем способность маскирования производить эмбеддинги, полезные в задаче оценки эффекта мутаций. Для этого мы обучаем на экспериментальных данных небольшую модель‑адаптер, которая принимает на вход эмбеддинги AlphaFold2, полученные mask‑методом для wildtype и мутантного белков, и предсказывает эффект мутаций \Delta \Delta G. Мы провели абляционные исследования, чтобы определить:

  • с каких слоёв лучше брать эмбеддинги для построения моделей;

  • какие модели использовать для предсказания экспериментальных значений \Delta \Delta G: SVM, CatBoost, MLP;

  • как аггрегировать большие матрицы эмбеддингов всего белка: среднее/сумма по всему белку, среднее/сумма по позициям мутации.

Лучшие результаты показал SVM, использующий эмбеддинг позиции мутации и построенный на конкатенации парных представлений с последнего слоя Evoformer, LDDT логитов и значений pLDDT. Для предсказаний эффекта множественных мутаций сначала предсказываются эффекты каждой индивидуальной мутации, которые затем складываются.

Полученная модель позволяет нам без предобучения или дообучения больших моделей добиться на датасетах единичных мутаций результатов не хуже, чем SOTA, на множественных — превзойти их. При этом полученный метод — единственный, способный предсказывать и эффекты замен, и эффекты инсерций/делеций.

Предсказание изменения стабильности белков на датасетах множественных мутаций и датасете инсерций и делеций: корреляция Спирмана, корреляция Пирсона, ROC AUC, коэффициент корреляции Мэтьюса MCC, RMSE
Предсказание изменения стабильности белков на датасетах множественных мутаций и датасете инсерций и делеций: корреляция Спирмана, корреляция Пирсона, ROC AUC, коэффициент корреляции Мэтьюса MCC, RMSE

Мы также проверили, можно ли построить на основе данных эмбеддингов простую модель, способную предсказать изменения энергии связывания белков вследствие мутации. По сути, это похожая задача: предсказать, как повлияет мутация на белковый комплекс, станет ли он стабильнее, или белки перестанут связываться? Экспериментальных данных для неё сильно меньше, поэтому эта задачка считается более сложной.

Большинство методов её решения полагаются на предобученную модель, на эмбеддингах которой можно обучить небольшой SVM или MLP. На стандартных для данной задачи сабсетах датасета SKEMPI наша модель достигает метрик около SOTA‑значений. При этом на out‑of‑distribution тест‑сете C380 (мутации в комплексе коронавирусного спайк‑белка с ACE2) она не теряет в качестве.

Предсказание изменения энергии связывания белков на датасете мутаций в комплексе коронавирусного спайк-белка с ACE2
Предсказание изменения энергии связывания белков на датасете мутаций в комплексе коронавирусного спайк‑белка с ACE2

Наконец, раз наша модификация действительно помогает оценивать стабильность белков и белковых комплексов, наверняка с её помощью получится напрямую предсказать свободную энергию для каждого остатка белка, рассчитанную с помощью Rosetta. Несмотря на то, что энергетическая функция Rosetta является не самым точным приближением экспериментальных значений свободной энергии белка, именно её значения часто используются как первое приближение перед запуском более вычислительно интенсивных методов (статья об энергетической функции Rosetta ещё до новостей о Нобелевской премии была процитирована почти 1400 раз).

Мы обучили SVM‑модель для предсказания свободной энергии Rosetta каждого остатка белка на 10 000 случайных белков из AlphaFoldDB и получили на нашем тест‑сете корреляцию R=0.842±0.004, что говорит о высокой точности. Таким образом, AFToolkit предоставляет ещё одну прокси‑модель для оценки стабильности белков, а также демонстрирует, что полученные эмбеддинги AlphaFold2 могут использоваться и для обучения других метрик стабильности белков. Из‑за этой способности к использованию полученных эмбеддингов на разных задачах, связанных с оценкой стабильности белков, мы и назвали наш подход AFToolkit.

Заключение

AFToolkit может быть адаптирован и к другим задачам, связанным с предсказанием белковой стабильности или эффектами мутаций: например, предсказание приобретения/потери какой‑то функции белка. Для этого достаточно посчитать эмбеддинги AlphaFold2 для имеющегося экспериментального датасета и обучить небольшую адаптерную модельку. Код для запуска, обучения, а также наши обученные модели мы собрали в нашем репозитории.

Конечно, предложенный нами метод имеет ряд ограничений. Для предсказания эффектов мутаций мы тестировали только 3 вида небольших моделей, и, возможно, лучшего качества предсказаний можно добиться с помощью других архитектур: например, если файн‑тюнить AlphaFold2 вместе с обучением модели‑адаптера. Хотя AFToolkit позволяет делать предсказания для разных типов мутаций с качеством, сравнимым со SOTA‑методами, лучший результат достигается не на всех типах датасетов. Наконец, мы не тестировали наши модели на качество предсказания эффектов от большого числа одновременных мутаций (в тестовых датасетах встречается до 10 одновременных замен), поэтому вопрос эффективности AFToolkit в таких случаях остаётся открытым.

Ну и нельзя не сказать, что, когда мы заканчивали работу над этой статьёй, вышла новая модель — AlphaFold3. Её главное преимущество заключается в возможности точно предсказывать структуры белков в комплексе с другими лигандами: например, РНК или ионами металлов. Мы не тестировали, насколько AlphaFold3 отличается от своего предшественника в способности предсказывать изменения в стабильности или функциях белков вследствие мутаций.

На самом деле, AFToolkit уже успел принести практическую пользу еще до выхода своей публикации. Мой коллега и автор идеи Никита Иванисенко применил этот метод в статье Design of Ctenophore Ca2+‑Regulated Photoprotein Berovin Capable of Being Converted into Active Protein Under Physiological Conditions: Computational and Experimental Approaches. В этом исследовании предложенная нами модификация была использована для отбора набора мутаций, которые в дальнейшем были протестированы экспериментально.

Надеюсь, в этом посте мне удалось дать вам небольшое введение в область белкового дизайна и рассказать, как наша последняя статья может помочь в разработке новых белков. С радостью отвечу на ваши вопросы.

Благодарность

Большое спасибо всем моим соавторам за их неоценимый вклад в создание AFToolkit ❤️: Александру Телепову, Никите Иванисенко, Татьяне Шашковой, Кузьме Храброву, Артёму Цыпину, Артуру Кадурину и Ольге Кардымон, а также Марату Хамадееву за помощь в написании этого поста.

Комментарии (0)