Генеративный ИИ, который в настоящее время находится на пике популярности, обещает мир, в котором простое превращается в сложное — где простое распределение превращается в сложные шаблоны изображений, звуков или текста, делая искусственное поразительно реальным.
Сферы воображения больше не остаются простыми абстракциями, поскольку исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) воплотили в жизнь инновационную модель искусственного интеллекта. Их новая технология объединяет два, казалось бы, не связанных друг с другом физических закона, которые лежат в основе наиболее эффективных на сегодняшний день генеративных моделей: диффузию, которая обычно иллюстрирует случайное движение элементов, например, тепло, проникающее в комнату, или газ, расширяющийся в пространство, и поток Пуассона, который опирается на принципы, управляющие активностью электрических зарядов.
Это гармоничное сочетание привело к превосходной производительности в создании новых изображений, превосходящей существующие современные модели. С момента своего создания «Модель генерации пуассонового потока ++ (PFGM++)» нашла потенциальное применение в различных областях: от генерации последовательностей антител и РНК до создания аудио и генерации графиков.
Модель может генерировать сложные шаблоны, например создавать реалистичные изображения или имитировать реальные процессы. PFGM++ основывается на PFGM, работе команды за предыдущий год. PFGM черпает вдохновение из средств, лежащих в основе математического уравнения, известного как уравнение «Пуассона», а затем применяет его к данным, на которых модель пытается учиться. Для этого команда использовала хитрый трюк: они добавили дополнительное измерение к «пространству» своей модели, что-то вроде перехода от 2D-эскиза к 3D-модели. Это дополнительное измерение дает больше возможностей для маневра, помещает данные в более широкий контекст и помогает подходить к данным со всех сторон при создании новых выборок.
«PFGM++ — это пример достижений в области ИИ, которые могут быть достигнуты посредством междисциплинарного сотрудничества между физиками и учеными-компьютерщиками», — говорит Джесси Талер, физик-теоретик элементарных частиц в Лаборатории ядерных наук Центра теоретической физики Массачусетского технологического института и директор ИИ Национального научного фонда. Институт искусственного интеллекта и фундаментальных взаимодействий (NSF AI IAIFI), который в работе не участвовал. «В последние годы генеративные модели на основе искусственного интеллекта дали множество потрясающих результатов: от фотореалистичных изображений до четких потоков текста. Примечательно, что некоторые из наиболее мощных генеративных моделей основаны на проверенных временем концепциях физики, таких как симметрия и термодинамика. PFGM++ берет вековую идею фундаментальной физики о том, что могут существовать дополнительные измерения пространства-времени, и превращает ее в мощный и надежный инструмент для создания синтетических, но реалистичных наборов данных. Я очень рад видеть множество способов, которыми «физический интеллект» трансформирует область искусственного интеллекта».
Основной механизм PFGM не так сложен, как может показаться. Исследователи сравнили полученные данные с крошечными электрическими зарядами, помещенными на плоскую плоскость в расширенном по измерениям мире. Эти заряды создают «электрическое поле», при этом заряды стремятся двигаться вверх вдоль силовых линий в дополнительное измерение и, следовательно, образуют равномерное распределение на обширном воображаемом полушарии. Процесс генерации подобен перемотке видеокассеты: начиная с равномерно распределенного набора зарядов в полушарии и отслеживая их путь обратно к плоской плоскости вдоль электрических линий, они выравниваются в соответствии с исходным распределением данных. Этот интригующий процесс позволяет нейронной модели изучать электрическое поле и генерировать новые данные, отражающие оригинал.
Модель PFGM++ расширяет электрическое поле в PFGM до сложной многомерной структуры. Когда вы продолжаете расширять эти измерения, происходит нечто неожиданное — модель начинает напоминать другой важный класс моделей — модели диффузии. Вся эта работа направлена на поиск правильного баланса. Модели PFGM и диффузионные модели находятся на противоположных концах спектра: одна надежна, но сложна в использовании, другая — проще, но менее надежна. Модель PFGM++ предлагает оптимальное решение, обеспечивая баланс между надежностью и простотой использования. Это нововведение открывает путь к более эффективному созданию изображений и узоров, что знаменует собой значительный шаг вперед в технологии. Наряду с регулируемыми размерами исследователи предложили новый метод обучения, который позволяет более эффективно изучать электрическое поле.
Чтобы воплотить эту теорию в жизнь, команда решила пару дифференциальных уравнений, подробно описывающих движение этих зарядов внутри электрического поля. Они оценили производительность, используя показатель начального расстояния Фреше (FID), широко распространенный показатель, который оценивает качество изображений, создаваемых моделью, по сравнению с реальными. PFGM++ также демонстрирует более высокую устойчивость к ошибкам и устойчивость к размеру шага в дифференциальных уравнениях.
Заглядывая в будущее, они стремятся усовершенствовать определенные аспекты модели, в частности систематические способы определения «золотой зоны» значения D, адаптированной для конкретных данных, архитектур и задач, путем анализа поведения ошибок оценки нейронных сетей. Они также планируют применить PFGM++ к современной крупномасштабной генерации текста в изображение/текста в видео.
«Модели диффузии стали важной движущей силой революции в генеративном искусственном интеллекте», — говорит Ян Сун, научный сотрудник OpenAI. «PFGM++ представляет собой мощное обобщение моделей диффузии, позволяющее пользователям генерировать изображения более высокого качества за счет повышения устойчивости генерации изображений к возмущениям и ошибкам обучения. Кроме того, PFGM++ раскрывает удивительную связь между электростатикой и моделями диффузии, обеспечивая новое теоретическое понимание исследований моделей диффузии».
«Генераторные модели пуассоновского потока не только основаны на элегантной формуле, вдохновленной физикой, основанной на электростатике, но также предлагают современную производительность генеративного моделирования на практике», — говорит старший научный сотрудник NVIDIA Карстен Крейс, который не участвовал в проекте. в работе. «Они даже превосходят популярные диффузионные модели, которые в настоящее время доминируют в литературе. Это делает их очень мощным инструментом генеративного моделирования, и я предвижу их применение в самых разных областях — от создания цифрового контента до открытия генеративных лекарств. В более общем плане, я считаю, что исследование дальнейших структур генеративного моделирования, вдохновленных физикой, имеет большие перспективы на будущее и что генеративные модели пуассоновского потока — это только начало».
Среди авторов статьи трое аспирантов Массачусетского технологического института: Илунь Сюй с факультета электротехники и информатики (EECS) и CSAIL, Цзымин Лю с факультета физики и NSF AI IAIFI и Шанъюань Тонг с факультета EECS и CSAIL, а также Старший научный сотрудник Google Юнлун Тянь, доктор философии ’23. Профессора Массачусетского технологического института Макс Тегмарк и Томми Яаккола консультировали исследование.
Команда была поддержана сингапурским сотрудничеством MIT-DSTA, проектом MIT-IBM Grand Challenge, грантами Национального научного фонда, Фондом Кейси и семьи, Институтом фундаментальных вопросов, Семейным фондом Ротбергов для когнитивных наук и ML для фармацевтических открытий. и Консорциум Синтеза. Их работа была представлена на Международной конференции по машинному обучению этим летом.