Исследовать
В июле 2022 года мы опубликовали прогнозы структуры белков AlphaFold почти для всех известных науке каталогизированных белков. Прочтите последний блог здесь.
Мы рады поделиться первой важной вехой DeepMind в демонстрации того, как исследования искусственного интеллекта могут стимулировать и ускорять новые научные открытия. Используя строго междисциплинарный подход к нашей работе, DeepMind объединила экспертов в области структурной биологии, физики и машинного обучения, чтобы применить передовые методы для прогнозирования трехмерной структуры белка, основываясь исключительно на его генетической последовательности.
Наша система, АльфаФолд, над которым мы работаем последние два года, основан на многолетних предыдущих исследованиях по использованию обширных геномных данных для прогнозирования структуры белка. 3D-модели белков, которые создает AlphaFold, гораздо более точны, чем любые предыдущие, что позволяет добиться значительного прогресса в решении одной из основных задач биологии.
В чем заключается проблема сворачивания белка?
Белки — это большие сложные молекулы, необходимые для поддержания жизни. Почти каждую функцию, которую выполняет наше тело — сокращение мышц, восприятие света или превращение пищи в энергию — можно объяснить одним или несколькими белками и тем, как они движутся и изменяются. Рецепты этих белков, называемых генами, закодированы в нашей ДНК.
То, что может делать тот или иной белок, зависит от его уникальной трехмерной структуры. Например, белки антител, составляющие нашу иммунную систему, имеют Y-образную форму и подобны уникальным крючкам. Прикрепляясь к вирусам и бактериям, белки антител способны обнаруживать и помечать болезнетворные микроорганизмы для их уничтожения. Точно так же белки коллагена имеют форму шнуров, которые передают напряжение между хрящами, связками, костями и кожей. Другие типы белков включают Cas9, который, используя в качестве ориентира последовательности CRISPR, действует как ножницы, разрезая и вставляя участки ДНК; белки-антифризы, трехмерная структура которых позволяет им связываться с кристаллами льда и предотвращать замерзание организмов; и рибосомы, которые действуют как запрограммированный конвейер и помогают создавать белки самостоятельно.
Но выяснение трехмерной формы белка исключительно на основе его генетической последовательности — сложная задача, которую ученые считали сложной на протяжении десятилетий. Проблема в том, что ДНК содержит информацию только о последовательности строительных блоков белка, называемых аминокислотными остатками, которые образуют длинные цепи. Предсказание того, как эти цепи будут складываться в сложную трехмерную структуру белка, известно как «проблема сворачивания белка».
Чем больше белок, тем сложнее его моделировать, поскольку необходимо учитывать больше взаимодействий между аминокислотами. Как отмечено в парадоксе Левинталя, чтобы перечислить все возможные конфигурации типичного белка, прежде чем достичь правильной трехмерной структуры, потребуется больше времени, чем возраст Вселенной.
Почему важно сворачивание белка?
Возможность предсказывать форму белка полезна для ученых, поскольку она имеет фундаментальное значение для понимания его роли в организме, а также для диагностики и лечения заболеваний, которые, как полагают, вызваны неправильно свернутыми белками, таких как болезнь Альцгеймера, Паркинсона, Хантингтона и муковисцидоз.
Мы особенно воодушевлены тем, как это может улучшить наше понимание тела и того, как оно работает, позволяя ученым более эффективно разрабатывать новые, эффективные лекарства от болезней. По мере того, как мы приобретаем больше знаний о форме белков и о том, как они действуют с помощью моделирования и моделей, это открывает новый потенциал в разработке лекарств, а также снижает затраты, связанные с экспериментами. В конечном итоге это может улучшить качество жизни миллионов пациентов по всему миру.
Понимание сворачивания белков также поможет в проектировании белков, что может открыть огромное количество преимуществ. Например, достижения в области биоразлагаемых ферментов, которые могут стать возможными благодаря дизайну белков, могут помочь в борьбе с такими загрязнителями, как пластик и нефть, помогая нам расщеплять отходы способами, более безопасными для окружающей среды. Фактически, исследователи уже начали создавать бактерии, секретирующие белки, которые сделают отходы биоразлагаемыми и облегчающими переработку.
Чтобы стимулировать исследования и измерить прогресс в области новейших методов повышения точности прогнозов, в 1994 году был учрежден глобальный конкурс под названием CASP (Критическая оценка прогнозирования структуры белка), который стал золотым стандартом для оценки методов.
Как ИИ может изменить ситуацию?
За последние пять десятилетий учёным удалось определить форму белков в лабораториях, используя экспериментальные методы, такие как криоэлектронная микроскопия, ядерный магнитный резонанс или рентгеновская кристаллография, но каждый метод зависит от множества проб и ошибок, которые могут занять много времени. лет и стоят десятки тысяч долларов за конструкцию. Вот почему биологи обращаются к методам искусственного интеллекта как к альтернативе этому долгому и трудоемкому процессу для сложных белков.
К счастью, область геномики довольно богата данными благодаря быстрому снижению стоимости генетического секвенирования. В результате подходы глубокого обучения к проблеме прогнозирования, основанные на геномных данных, становятся все более популярными в последние несколько лет. Результатом работы DeepMind над этой проблемой стал AlphaFold, который мы представили CASP в этом году. Мы гордимся тем, что являемся частью того, что организаторы CASP назвали «беспрецедентным прогрессом в способности вычислительных методов предсказывать структуру белка», заняв первое место в рейтинге среди принявших участие команд (наша запись — A7D).
Наша команда сосредоточилась конкретно на сложной задаче моделирования форм мишеней с нуля, без использования ранее решенных белков в качестве шаблонов. Мы достигли высокой степени точности при прогнозировании физических свойств белковой структуры, а затем использовали два разных метода для прогнозирования полных белковых структур.
Использование нейронных сетей для прогнозирования физических свойств
Оба эти метода основывались на глубоких нейронных сетях, которые обучены предсказывать свойства белка на основе его генетической последовательности. Наши сети предсказывают следующие свойства: (а) расстояния между парами аминокислот и (б) углы между химическими связями, соединяющими эти аминокислоты. Первая разработка представляет собой усовершенствование широко используемых методов оценки того, находятся ли пары аминокислот рядом друг с другом.
Мы обучили нейронную сеть предсказывать отдельное распределение расстояний между каждой парой остатков в белке. Эти вероятности затем были объединены в балл, который оценивает, насколько точна предлагаемая структура белка. Мы также обучили отдельную нейронную сеть, которая использует все расстояния в совокупности, чтобы оценить, насколько предложенная структура близка к правильному ответу.
Новые методы прогнозирования белковых структур
Используя эти оценочные функции, мы смогли исследовать белковый ландшафт и найти структуры, соответствующие нашим предсказаниям. Наш первый метод основан на методах, обычно используемых в структурной биологии, и неоднократно заменял части структуры белка новыми фрагментами белка. Мы обучили генеративную нейронную сеть изобретать новые фрагменты, которые использовались для постоянного улучшения оценки предложенной структуры белка.
Второй метод оптимизировал результаты с помощью градиентного спуска — математического метода, обычно используемого в машинном обучении для внесения небольших, постепенных улучшений, — что привело к получению очень точных структур. Этот метод был применен к целым белковым цепям, а не к частям, которые необходимо складывать отдельно перед сборкой, что снизило сложность процесса прогнозирования.
Что будет дальше?
Успех нашего первого исследования сворачивания белков свидетельствует о том, как системы машинного обучения могут интегрировать различные источники информации, чтобы помочь ученым быстро находить творческие решения сложных проблем. Точно так же, как мы видели, как ИИ может помочь людям освоить сложные игры с помощью таких систем, как AlphaGo и AlphaZero, мы также надеемся, что однажды достижения ИИ помогут нам решить и фундаментальные научные проблемы.
Очень интересно видеть первые признаки прогресса в сворачивании белков, демонстрирующие полезность ИИ для научных открытий. Несмотря на то, что предстоит проделать еще много работы, прежде чем мы сможем оказать количественное влияние на лечение болезней, управление окружающей средой и многое другое, мы знаем, что потенциал огромен. Благодаря специальной команде, которая занимается изучением того, как машинное обучение может улучшить мир науки, мы с нетерпением ждем возможности увидеть, как наши технологии могут изменить ситуацию.