ИИ генерирует высококачественные изображения в 30 раз быстрее за один шаг | Новости Массачусетского технологического института | GPTMain News

В наш нынешний век искусственного интеллекта компьютеры могут создавать свое собственное «искусство» посредством диффузионных моделей, итеративно добавляя структуру к зашумленному начальному состоянию, пока не появится четкое изображение или видео. Диффузионные модели внезапно заняли место за общим столом: введите несколько слов и испытайте мгновенные, вызывающие дофамин сновидения на стыке реальности и фантазии. За кулисами это сложный и трудоемкий процесс, требующий многочисленных итераций алгоритма для совершенствования изображения.

Исследователи Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) представили новую структуру, которая упрощает многоэтапный процесс традиционных моделей диффузии до одного шага, устраняя предыдущие ограничения. Это делается с помощью модели «учитель-ученик»: обучение новой компьютерной модели имитировать поведение более сложных оригинальных моделей, генерирующих изображения. Этот подход, известный как дистилляция с сопоставлением распределения (DMD), сохраняет качество сгенерированных изображений и позволяет создавать их гораздо быстрее.

«Наша работа представляет собой новый метод, который ускоряет существующие модели диффузии, такие как стабильная диффузия и DALLE-3, в 30 раз», — говорит Тяньвэй Инь, аспирант Массачусетского технологического института в области электротехники и информатики, филиала CSAIL и ведущий исследователь DMD. рамки. «Это достижение не только значительно сокращает время вычислений, но и сохраняет, если не превосходит, качество создаваемого визуального контента. Теоретически этот подход объединяет принципы генеративно-состязательных сетей (GAN) с принципами диффузионных моделей, обеспечивая генерацию визуального контента за один шаг, что резко контрастирует с сотней шагов итеративного уточнения, требуемых современными диффузионными моделями. Потенциально это может стать новым методом генеративного моделирования, отличающимся скоростью и качеством».

Эта одноэтапная модель распространения может улучшить инструменты проектирования, позволяя быстрее создавать контент и потенциально поддерживать достижения в области открытия лекарств и 3D-моделирования, где оперативность и эффективность являются ключевыми факторами.

Распространение мечты

МДД хитроумно состоит из двух компонентов. Во-первых, он использует регрессионную потерю, которая привязывает отображение, чтобы обеспечить грубую организацию пространства изображений и сделать обучение более стабильным. Затем он использует потерю соответствия распределения, которая гарантирует, что вероятность создания данного изображения с помощью модели студента соответствует его реальной частоте появления. Для этого он использует две диффузионные модели, которые действуют как руководства, помогая системе понять разницу между реальными и сгенерированными изображениями и делая возможным обучение быстрого одношагового генератора.

Система обеспечивает более быструю генерацию за счет обучения новой сети, чтобы минимизировать расхождение в распределении между ее сгенерированными изображениями и изображениями из набора обучающих данных, используемого традиционными моделями диффузии. «Наша основная идея — аппроксимировать градиенты, которые помогут улучшить новую модель, используя две модели диффузии», — говорит Инь. «Таким образом, мы превращаем знания исходной, более сложной модели в более простую и быструю, обходя при этом пресловутые проблемы нестабильности и коллапса режимов в GAN».

Инь и его коллеги использовали предварительно обученные сети для новой модели учащихся, упрощая процесс. Копируя и настраивая параметры исходных моделей, команда добилась быстрой сходимости обучения новой модели, которая способна создавать высококачественные изображения на той же архитектурной основе. «Это позволяет комбинировать другие оптимизации системы на основе оригинальной архитектуры для дальнейшего ускорения процесса создания», — добавляет Инь.

При сравнении с обычными методами с использованием широкого спектра тестов DMD показал стабильную производительность. Что касается популярного теста создания изображений на основе определенных классов в ImageNet, DMD является первым методом одноэтапного распространения, который создает изображения практически на одном уровне с изображениями из исходных, более сложных моделей, обеспечивая очень близкое начальное расстояние по Фреше ( FID) всего 0,3, что впечатляет, поскольку суть FID заключается в оценке качества и разнообразия создаваемых изображений. Кроме того, DMD превосходно справляется с генерацией текста в изображение в промышленном масштабе и обеспечивает современную производительность одноэтапной генерации. При работе с более сложными приложениями преобразования текста в изображение по-прежнему существует небольшой разрыв в качестве, что позволяет предположить, что в будущем есть возможности для улучшения.

Кроме того, качество изображений, созданных с помощью DMD, неразрывно связано с возможностями модели учителя, используемой в процессе дистилляции. В текущей форме, которая использует Stable Diffusion v1.5 в качестве модели учителя, ученик наследует такие ограничения, как визуализация детального изображения текста и маленьких лиц, что позволяет предположить, что изображения, сгенерированные DMD, могут быть дополнительно улучшены с помощью более продвинутых моделей учителей.

«Уменьшение количества итераций было Святым Граалем диффузионных моделей с момента их создания», — говорит Фредо Дюран, профессор электротехники и информатики Массачусетского технологического института, главный исследователь CSAIL и ведущий автор статьи. «Мы очень рады наконец-то включить одноэтапную генерацию изображений, что значительно сократит вычислительные затраты и ускорит процесс».

«Наконец, статья, которая успешно сочетает в себе универсальность и высокое визуальное качество диффузионных моделей с производительностью GAN в реальном времени», — говорит Алексей Эфрос, профессор электротехники и информатики Калифорнийского университета в Беркли, который не принимал участия в разработке. в этом исследовании. «Я ожидаю, что эта работа откроет фантастические возможности для высококачественного визуального редактирования в реальном времени».

Соавторами Инь и Дюрана являются профессор электротехники и информатики Массачусетского технологического института и главный исследователь CSAIL Уильям Т. Фриман, а также ученые-исследователи Adobe Микаэль Гарби SM ’15, доктор философии ’18; Ричард Чжан; Эли Шехтман; и Пак Тэсон. Их работа была частично поддержана грантами Национального научного фонда США (в том числе грантом Института искусственного интеллекта и фундаментальных взаимодействий), Агентства оборонной науки и технологий Сингапура, а также финансированием Института науки и технологий Кванджу и Amazon. Их работа будет представлена ​​на конференции по компьютерному зрению и распознаванию образов в июне.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس