Обнаружение новых материалов и лекарств обычно включает в себя ручной процесс проб и ошибок, который может занять десятилетия и стоить миллионы долларов. Чтобы упростить этот процесс, ученые часто используют машинное обучение, чтобы предсказать молекулярные свойства и сузить круг молекул, которые им необходимо синтезировать и протестировать в лаборатории.
Исследователи из Массачусетского технологического института и Лаборатории искусственного интеллекта MIT-Watson разработали новую унифицированную структуру, которая может одновременно предсказывать молекулярные свойства и генерировать новые молекулы гораздо эффективнее, чем эти популярные подходы глубокого обучения.
Чтобы научить модель машинного обучения предсказывать биологические или механические свойства молекулы, исследователи должны показать ей миллионы помеченных молекулярных структур — процесс, известный как обучение. Из-за затрат на обнаружение молекул и проблем с ручной маркировкой миллионов структур часто трудно получить большие наборы обучающих данных, что ограничивает эффективность подходов машинного обучения.
Напротив, система, созданная исследователями Массачусетского технологического института, может эффективно предсказывать молекулярные свойства, используя лишь небольшой объем данных. Их система имеет базовое понимание правил, которые диктуют, как строительные блоки объединяются для создания действительных молекул. Эти правила фиксируют сходство между молекулярными структурами, что помогает системе генерировать новые молекулы и предсказывать их свойства с эффективным использованием данных.
Этот метод превзошел другие подходы машинного обучения как к небольшим, так и к большим наборам данных и смог точно предсказать молекулярные свойства и создать жизнеспособные молекулы при наличии набора данных с менее чем 100 образцами.
«Наша цель в этом проекте — использовать некоторые методы, основанные на данных, для ускорения открытия новых молекул, чтобы вы могли обучить модель делать прогнозы без всех этих дорогостоящих экспериментов», — говорит ведущий автор Минхао Го, аспирант компьютерных наук и электротехники (EECS).
Соавторами Гуо являются сотрудники исследовательского центра MIT-IBM Watson AI Lab Вероника Тост, Пайел Дас и Джи Чен; недавние выпускники Массачусетского технологического института Сэмюэл Сонг ’23 и Адитья Балачандран ’23; и старший автор Войцех Матусик, профессор электротехники и информатики и член лаборатории искусственного интеллекта Watson MIT-IBM, который возглавляет группу вычислительного проектирования и производства в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). Исследование будет представлено на Международной конференции по машинному обучению.
Изучение языка молекул
Чтобы достичь наилучших результатов с помощью моделей машинного обучения, ученым нужны обучающие наборы данных с миллионами молекул, обладающих свойствами, схожими с теми, которые они надеются обнаружить. На самом деле эти наборы данных для конкретной предметной области обычно очень малы. Таким образом, исследователи используют модели, которые были предварительно обучены на больших наборах данных общих молекул, которые они применяют к гораздо меньшему, целевому набору данных. Однако из-за того, что эти модели не приобрели достаточно знаний в предметной области, они, как правило, плохо работают.
Команда Массачусетского технологического института выбрала другой подход. Они создали систему машинного обучения, которая автоматически изучает «язык» молекул — то, что известно как молекулярная грамматика — используя только небольшой набор данных, специфичный для предметной области. Он использует эту грамматику для построения жизнеспособных молекул и предсказания их свойств.
В теории языка генерируются слова, предложения или абзацы на основе набора правил грамматики. Точно так же вы можете думать о молекулярной грамматике. Это набор производственных правил, которые определяют, как создавать молекулы или полимеры путем объединения атомов и субструктур.
Точно так же, как грамматика языка, которая может генерировать множество предложений, используя одни и те же правила, одна молекулярная грамматика может представлять огромное количество молекул. Молекулы с похожей структурой используют одни и те же грамматические правила производства, и система учится понимать эти сходства.
Поскольку структурно сходные молекулы часто имеют схожие свойства, система использует базовые знания о молекулярном сходстве для более эффективного прогнозирования свойств новых молекул.
«Когда у нас будет эта грамматика в качестве представления для всех различных молекул, мы сможем использовать ее для ускорения процесса предсказания свойств», — говорит Го.
Система изучает правила производства молекулярной грамматики, используя обучение с подкреплением — процесс проб и ошибок, когда модель вознаграждается за поведение, приближающее ее к достижению цели.
Но поскольку могут быть миллиарды способов комбинировать атомы и подструктуры, процесс изучения правил производства грамматики был бы слишком затратным с вычислительной точки зрения для всего, кроме самого крошечного набора данных.
Исследователи разделили молекулярную грамматику на две части. Первая часть, называемая метаграмматикой, представляет собой общую, широко применимую грамматику, которую они разрабатывают вручную и передают системе в самом начале. Затем ему нужно только выучить гораздо меньшую грамматику, специфичную для молекулы, из набора данных предметной области. Такой иерархический подход ускоряет процесс обучения.
Большие результаты, маленькие наборы данных
В экспериментах новая система исследователей одновременно генерировала жизнеспособные молекулы и полимеры и предсказывала их свойства более точно, чем несколько популярных подходов машинного обучения, даже когда наборы данных для предметной области содержали всего несколько сотен образцов. Некоторые другие методы также требовали дорогостоящего этапа предварительной подготовки, которого новая система избегает.
Этот метод был особенно эффективен при прогнозировании физических свойств полимеров, таких как температура стеклования, то есть температура, необходимая для перехода материала из твердого состояния в жидкое. Получение этой информации вручную часто очень дорого, потому что эксперименты требуют чрезвычайно высоких температур и давлений.
Чтобы продвинуть свой подход дальше, исследователи сократили одну тренировочную выборку более чем наполовину — всего до 94 образцов. Их модель по-прежнему давала результаты, не уступающие методам, обученным с использованием всего набора данных.
«Это представление на основе грамматики очень мощное. И поскольку грамматика сама по себе является очень общим представлением, ее можно применять к различным типам данных в форме графа. Мы пытаемся найти другие области применения, помимо химии или материаловедения», — говорит Го.
В будущем они также хотят расширить свою текущую молекулярную грамматику, включив в нее трехмерную геометрию молекул и полимеров, что является ключом к пониманию взаимодействий между полимерными цепями. Они также разрабатывают интерфейс, который будет показывать пользователю изученные правила производства грамматики и запрашивать обратную связь, чтобы исправить правила, которые могут быть неправильными, повышая точность системы.
Эта работа частично финансируется лабораторией MIT-IBM Watson AI Lab и входящей в ее состав компанией Evonik.