Огромные библиотеки лекарственных соединений могут содержать потенциальные методы лечения различных заболеваний, таких как рак или болезни сердца. В идеале ученые хотели бы экспериментально проверить каждое из этих соединений на всех возможных мишенях, но такой анализ занимает непомерно много времени.
В последние годы исследователи начали использовать вычислительные методы для скрининга этих библиотек в надежде ускорить открытие лекарств. Однако многие из этих методов также требуют много времени, поскольку большинство из них рассчитывают трехмерную структуру каждого целевого белка на основе его аминокислотной последовательности, а затем используют эти структуры для предсказания того, с какими молекулами лекарств он будет взаимодействовать.
Исследователи из Массачусетского технологического института и Университета Тафтса разработали альтернативный вычислительный подход, основанный на типе алгоритма искусственного интеллекта, известного как большая языковая модель. Эти модели – одним из известных примеров является ChatGPT – могут анализировать огромные объемы текста и определять, какие слова (или, в данном случае, аминокислоты) с наибольшей вероятностью будут встречаться вместе. Новая модель, известная как ConPLex, может сопоставлять целевые белки с потенциальными молекулами лекарств без необходимости выполнять трудоемкий этап расчета структуры молекул.
Используя этот метод, исследователи могут отсеять более 100 миллионов соединений за один день – гораздо больше, чем любая существующая модель.
Эта работа удовлетворяет потребность в эффективном и точном in silico скрининге потенциальных кандидатов в лекарственные препараты, а масштабируемость модели позволяет проводить крупномасштабные скрининги для оценки внецелевых эффектов, перепрофилирования лекарств и определения влияния мутаций на связывание лекарств”, – говорит Бонни Бергер, профессор математики Саймонс, руководитель группы “Вычисления и биология” в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и один из старших авторов нового исследования.
Ленор Коуэн, профессор информатики в Университете Тафтса, также является старшим автором работы, которая появилась на этой неделе в журнале “The New York Times”. Proceedings of the National Academy of Sciences. Рохит Сингх, научный сотрудник CSAIL, и Самуэль Следзиески, аспирант GPTMain, являются ведущими авторами статьи, а Брайан Брайсон, доцент кафедры биологической инженерии GPTMain и член Института Рагона MGH, GPTMain и Гарварда, также является автором. В дополнение к статье исследователи разместили свою модель в Интернете, чтобы ею могли воспользоваться другие ученые.
Создание прогнозов
В последние годы ученые-вычислители добились больших успехов в разработке моделей, позволяющих предсказывать структуры белков на основе их аминокислотных последовательностей. Однако использование этих моделей для предсказания того, как большая библиотека потенциальных лекарств может взаимодействовать, например, с раковым белком, оказалось сложной задачей, главным образом потому, что расчет трехмерных структур белков требует большого количества времени и вычислительной мощности.
Дополнительным препятствием является то, что подобные модели не очень хорошо справляются с задачей исключения соединений, известных как “приманки”, которые очень похожи на успешный препарат, но на самом деле плохо взаимодействуют с мишенью.
“Одна из давних проблем в этой области заключается в том, что эти методы хрупки, в том смысле, что если я дам модели лекарство или маленькую молекулу, которая выглядит почти как настоящая, но немного отличается каким-то тонким образом, модель может предсказать, что они будут взаимодействовать, хотя этого не должно быть”, – говорит Сингх.
Исследователи разработали модели, которые могут преодолеть подобную хрупкость, но они обычно предназначены только для одного класса лекарственных молекул, и они не очень хорошо подходят для крупномасштабных скринингов, поскольку вычисления занимают слишком много времени.
Команда Массачусетского технологического института решила применить альтернативный подход, основанный на модели белка, которую они впервые разработали в 2019 году. Работая с базой данных более чем 20 000 белков, языковая модель кодирует эту информацию в значимые числовые представления каждой аминокислотной последовательности, которые отражают ассоциации между последовательностью и структурой.
“С помощью этих языковых моделей даже белки, которые имеют очень разные последовательности, но потенциально обладают схожей структурой или схожими функциями, могут быть представлены схожим образом в этом языковом пространстве, и мы можем воспользоваться этим для наших прогнозов”, – говорит Следзиески.
В своем новом исследовании ученые применили белковую модель к задаче выяснения того, какие белковые последовательности будут взаимодействовать с конкретными молекулами лекарств. Обе эти модели имеют числовые представления, которые преобразуются в общее, разделяемое пространство нейронной сетью. Они обучили сеть на известных взаимодействиях белков с лекарствами, что позволило ей научиться связывать специфические особенности белков со способностью связывать лекарства, без необходимости рассчитывать 3D-структуру любой из молекул.
“Благодаря такому высококачественному числовому представлению модель может полностью отказаться от атомного представления и на основе этих чисел предсказать, будет ли связываться лекарство”, – говорит Сингх. “Преимущество этого заключается в том, что вы избегаете необходимости проходить через атомное представление, но числа по-прежнему содержат всю необходимую информацию”.
Еще одним преимуществом этого подхода является то, что он учитывает гибкость белковых структур, которые могут быть “волнистыми” и принимать немного другую форму при взаимодействии с молекулой лекарства.
Высокое сродство
Чтобы сделать свою модель менее склонной к обману молекулами-обманками, исследователи также включили этап обучения, основанный на концепции контрастного обучения. Согласно этому подходу, исследователи дают модели примеры “настоящих” лекарств и самозванцев и учат ее различать их.
Затем исследователи протестировали свою модель, проверив библиотеку из примерно 4700 молекул-кандидатов на способность связываться с 51 ферментом, известным как протеинкиназы.
Из наиболее удачных вариантов исследователи выбрали 19 пар лекарство-белок для экспериментальной проверки. Эксперименты показали, что из 19 совпадений 12 обладают сильным сродством к связыванию (в наномолярном диапазоне), в то время как почти все другие возможные пары лекарство-белок не имели бы сродства. Четыре из этих пар связывались с чрезвычайно высоким, субнаномолярным сродством (настолько сильным, что крошечная концентрация лекарства, порядка частей на миллиард, будет ингибировать белок).
Хотя в данном исследовании ученые сосредоточились в основном на скрининге мелкомолекулярных препаратов, сейчас они работают над применением этого подхода к другим типам лекарств, таким как терапевтические антитела. Подобное моделирование также может оказаться полезным для скрининга токсичности потенциальных лекарственных соединений, чтобы убедиться в отсутствии у них нежелательных побочных эффектов, прежде чем испытывать их на животных моделях.
“Отчасти причина дороговизны открытия лекарств заключается в том, что оно сопровождается высоким процентом неудач. Если мы сможем снизить процент неудач, заранее сказав, что это лекарство вряд ли сработает, это может значительно снизить стоимость открытия лекарств”, – говорит Сингх.
Этот новый подход “представляет собой значительный прорыв в предсказании взаимодействия лекарств с мишенями и открывает дополнительные возможности для будущих исследований, чтобы еще больше расширить его возможности”, – говорит Эйтан Руппин, руководитель лаборатории Cancer Data Science Laboratory Национального института рака, который не принимал участия в исследовании. “Например, включение структурной информации в латентное пространство или изучение методов молекулярной генерации приманок может еще больше улучшить предсказания”.
Исследование финансировалось Национальным институтом здравоохранения, Национальным научным фондом и Фондом Филлипа и Сьюзен Рагон.