Модель контролируемой диффузии может изменять свойства материалов на изображениях | Новости Массачусетского технологического института | GPTMain News

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Google Research, возможно, только что совершили цифровое волшебство — в форме диффузионной модели, которая может изменять материальные свойства объектов на изображениях.

Система, получившая название Alchemist, позволяет пользователям изменять четыре атрибута как реальных изображений, так и изображений, созданных искусственным интеллектом: шероховатость, металличность, альбедо (исходный базовый цвет объекта) и прозрачность. В качестве модели диффузии изображений между изображениями можно ввести любую фотографию, а затем настроить каждое свойство в пределах непрерывной шкалы от -1 до 1, чтобы создать новый визуальный элемент. Эти возможности редактирования фотографий потенциально могут распространиться на улучшение моделей в видеоиграх, расширение возможностей искусственного интеллекта в области визуальных эффектов и обогащение данных обучения роботов.

Волшебство Alchemist начинается с модели диффузии шумоподавления: на практике исследователи использовали Stable Diffusion 1.5, модель преобразования текста в изображение, получившую высокую оценку за свои фотореалистичные результаты и возможности редактирования. Предыдущая работа была основана на популярной модели, позволяющей пользователям вносить изменения более высокого уровня, например, заменять объекты или изменять глубину изображений. Напротив, метод CSAIL и Google Research применяет эту модель, чтобы сосредоточиться на низкоуровневых атрибутах, пересматривая более мелкие детали свойств материала объекта с помощью уникального интерфейса на основе слайдера, который превосходит свои аналоги.

В то время как предыдущие системы диффузии могли вытащить пресловутого кролика из шляпы для получения изображения, Alchemist мог трансформировать то же самое животное, чтобы оно выглядело полупрозрачным. Система также может сделать резиновую утку металлической, убрать золотистый оттенок с золотой рыбки и навести блеск на старой обуви. Такие программы, как Photoshop, имеют аналогичные возможности, но эта модель может изменять свойства материала более простым способом. Например, изменение металлического вида фотографии в широко используемом приложении требует нескольких шагов.

«Когда вы смотрите на созданное вами изображение, часто результат оказывается не совсем тем, что вы имеете в виду», — говорит Прафул Шарма, аспирант Массачусетского технологического института в области электротехники и информатики, филиал CSAIL и ведущий автор новой статьи, описывающей работа. «Вы хотите управлять изображением во время его редактирования, но существующие элементы управления в редакторах изображений не позволяют изменять материалы. В Alchemist мы извлекаем выгоду из фотореалистичности результатов моделей преобразования текста в изображение и предлагаем ползунок, который позволяет нам изменять определенное свойство после предоставления исходного изображения».

Точный контроль

«Генераторные модели преобразования текста в изображение позволили обычным пользователям создавать изображения так же легко, как писать предложение. Однако контролировать эти модели может быть непросто», — говорит доцент Университета Карнеги-Меллона Цзюнь-Янь Чжу, который не участвовал в работе. «Хотя создать вазу просто, синтез вазы с определенными свойствами материала, такими как прозрачность и шероховатость, требует от пользователей часами пробовать различные текстовые подсказки и случайные семена. Это может расстраивать, особенно профессиональных пользователей, которым требуется точность в работе. Alchemist представляет практическое решение этой проблемы, обеспечивая точный контроль над материалами входного изображения, одновременно используя основанные на данных априоры крупномасштабных диффузионных моделей, вдохновляя будущие работы по плавному включению генеративных моделей в существующие интерфейсы создания часто используемого контента. программное обеспечение.”

Дизайнерские возможности Alchemist могут помочь улучшить внешний вид различных моделей в видеоиграх. Применение такой модели диффузии в этой области могло бы помочь создателям ускорить процесс проектирования, улучшая текстуры, чтобы они соответствовали игровому процессу уровня. Более того, Шарма и проект его команды могут помочь с изменением элементов графического дизайна, видео и эффектов фильма для повышения фотореализма и точного достижения желаемого внешнего вида материала.

Этот метод также может улучшить данные обучения роботов для таких задач, как манипуляция. Познакомив машины с большим количеством текстур, они смогут лучше понять разнообразные предметы, которые им предстоит освоить в реальном мире. Alchemist потенциально может даже помочь с классификацией изображений, анализируя случаи, когда нейронная сеть не может распознать материальные изменения изображения.

Работа Шармы и его команды превзошла аналогичные модели, поскольку они точно редактировали только запрошенный интересующий объект. Например, когда пользователь предлагал различным моделям настроить максимальную прозрачность дельфина, только Alchemist достиг этого результата, оставив фон океана нетронутым. Когда исследователи обучили сопоставимую диффузионную модель InstructPix2Pix на тех же данных, что и их метод сравнения, они обнаружили, что Alchemist достиг превосходных показателей точности. Аналогичным образом, исследование пользователей показало, что модель MIT была предпочтительнее и считалась более фотореалистичной, чем ее аналог.

Сохранение реальности с помощью синтетических данных

По мнению исследователей, собирать реальные данные было непрактично. Вместо этого они обучили свою модель на синтетическом наборе данных, случайным образом редактируя атрибуты материала 1200 материалов, примененных к 100 общедоступным уникальным 3D-объектам в Blender, популярном инструменте компьютерного графического дизайна.

«Контроль над генеративным синтезом изображений ИИ до сих пор ограничивался тем, что может описывать текст», — говорит Фредо Дюран, профессор вычислительной техники имени Амара Бозе на факультете электротехники и компьютерных наук Массачусетского технологического института (EECS) и член CSAIL, который является старший автор статьи. «Эта работа открывает новый, более детальный контроль над визуальными атрибутами, унаследованный от десятилетий исследований компьютерной графики».

«Алхимик — это тот метод, который необходим для того, чтобы сделать модели машинного обучения и распространения практичными и полезными для сообщества CGI и графических дизайнеров», — добавляет старший инженер-программист и соавтор Google Research Марк Мэтьюз. «Без него вы застрянете с такая неконтролируемая стохастичность, возможно, какое-то время доставляет удовольствие, но в какой-то момент вам нужно заняться настоящей работой и заставить ее подчиняться творческому видению».

Последний проект Шармы появился через год после того, как он возглавил исследование Материалистический, метод машинного обучения, который может идентифицировать похожие материалы на изображении. Эта предыдущая работа продемонстрировала, как модели ИИ могут совершенствовать свои навыки понимания материалов, и, как и Alchemist, была доработана на синтетическом наборе данных 3D-моделей из Blender.

Тем не менее, на данный момент у Alchemist есть несколько ограничений. Модель изо всех сил пытается правильно определить освещение, поэтому иногда она не может следовать вводу пользователя. Шарма отмечает, что этот метод иногда также создает физически неправдоподобные прозрачности. Представьте себе, например, руку, частично находящуюся внутри коробки с хлопьями — при максимальной настройке этого атрибута в Алхимике вы увидите прозрачный контейнер, в который не лезут пальцы.

Исследователи хотели бы подробно рассказать о том, как такая модель может улучшить 3D-ресурсы для графики на уровне сцены. Кроме того, Alchemist может помочь определить свойства материалов по изображениям. По мнению Шармы, в будущем этот тип работы может раскрыть связь между визуальными и механическими характеристиками объектов.

Профессор MIT EECS и член CSAIL Уильям Т. Фриман также является старшим автором, присоединившись к Варуну Джампани и ученым Google Research Юаньчжэню Ли, доктору философии ’09, Сюйхуэй Цзя и Дмитрию Лагуну. Работа частично поддерживалась грантом Национального научного фонда и подарками от Google и Amazon. Работа группы будет освещена на CVPR в июне.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس