Робот, манипулирующий предметами, работая, например, на кухне, получит пользу от понимания того, какие предметы состоят из одинаковых материалов. Зная это, робот будет знать, что ему нужно приложить одинаковое усилие, если он возьмет маленький кусочек масла из тенистого угла стола или целую палочку из ярко освещенного холодильника.
Идентификация объектов в сцене, состоящих из одного и того же материала, известная как выбор материала, является особенно сложной проблемой для машин, поскольку внешний вид материала может сильно меняться в зависимости от формы объекта или условий освещения.
Ученые из Массачусетского технологического института и компании Adobe Research сделали шаг к решению этой проблемы. Они разработали методику, которая позволяет определить все пиксели на изображении, представляющие определенный материал, который отображается в пикселе, выбранном пользователем.
Метод точен даже в тех случаях, когда объекты имеют различные формы и размеры, а разработанная ими модель машинного обучения не обманывается тенями или условиями освещения, из-за которых один и тот же материал может выглядеть по-разному.
Хотя они обучали свою модель, используя только “синтетические” данные, которые создаются компьютером, изменяющим трехмерные сцены для получения множества разнообразных изображений, система эффективно работает на реальных внутренних и внешних сценах, которых она никогда раньше не видела. Этот подход также можно использовать для видео; как только пользователь идентифицирует пиксель в первом кадре, модель может идентифицировать объекты из того же материала на протяжении всего остального видео.

Изображение: Предоставлено исследователями
Помимо применения в робототехнике для понимания сцен, этот метод может быть использован для редактирования изображений или включен в вычислительные системы, которые определяют параметры материалов на изображениях. Он также может быть использован в системах веб-рекомендаций на основе материалов. (Например, покупатель ищет одежду из определенного типа ткани).
“Знание того, с каким материалом вы взаимодействуете, часто очень важно. Хотя два объекта могут выглядеть одинаково, они могут иметь разные свойства материала. Наш метод может облегчить выбор всех других пикселей на изображении, которые сделаны из того же материала”, – говорит Прафулл Шарма, аспирант кафедры электротехники и информатики и ведущий автор статьи об этой технике.
В число соавторов Шармы входят Жюльен Филип и Майкл Гарби, научные сотрудники Adobe Research, а также старшие авторы Уильям Т. Фриман, профессор электротехники и компьютерных наук Томас и Герд Перкинс и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), Фредо Дюран, профессор электротехники и компьютерных наук и член CSAIL, и Валентин Дешантр, научный сотрудник Adobe Research. Результаты исследования будут представлены на конференции SIGGRAPH 2023.
Новый подход
Существующие методы выбора материала не позволяют точно определить все пиксели, представляющие один и тот же материал. Например, некоторые методы фокусируются на целых объектах, но один объект может состоять из нескольких материалов, например, стул с деревянными подлокотниками и кожаным сиденьем. Другие методы могут использовать заранее определенный набор материалов, но они часто имеют широкие обозначения, такие как “дерево”, несмотря на то, что существуют тысячи разновидностей дерева.
Вместо этого Шарма и его коллеги разработали подход машинного обучения, который динамически оценивает все пиксели изображения, чтобы определить сходство материалов между пикселем, выбранным пользователем, и всеми другими областями изображения. Если изображение содержит стол и два стула, а ножки стула и столешница сделаны из одной и той же породы дерева, их модель может точно определить эти схожие области.
Прежде чем исследователи смогли разработать метод ИИ для обучения выбору похожих материалов, им пришлось преодолеть несколько препятствий. Во-первых, ни один из существующих наборов данных не содержал материалов с достаточно точной маркировкой для обучения модели машинного обучения. Исследователи создали свой собственный синтетический набор данных сцен в помещениях, который включал 50 000 изображений и более 16 000 материалов, случайным образом нанесенных на каждый объект.
“Мы хотели получить набор данных, в котором каждый отдельный тип материала был бы помечен независимо”, – говорит Шарма.
С синтетическим набором данных в руках они обучили модель машинного обучения для задачи идентификации похожих материалов на реальных изображениях – но она потерпела неудачу. Исследователи поняли, что всему виной смещение распределения. Это происходит, когда модель обучается на синтетических данных, но терпит неудачу при тестировании на реальных данных, которые могут сильно отличаться от обучающего набора.
Чтобы решить эту проблему, они построили свою модель на основе предварительно обученной модели компьютерного зрения, которая видела миллионы реальных изображений. Они использовали предварительные знания этой модели, задействовав уже изученные ею визуальные особенности.
“В машинном обучении, когда вы используете нейронную сеть, обычно происходит совместное обучение представлению и процессу решения задачи. Мы разделили эти понятия. Предварительно обученная модель дает нам представление, а затем наша нейронная сеть просто фокусируется на решении задачи”, – говорит он.
Решение проблемы сходства
Модель исследователей преобразует общие, предварительно обученные визуальные признаки в признаки, специфичные для материала, и делает это таким образом, что она устойчива к форме объекта или различным условиям освещения.

Изображение: любезно предоставлено исследователями
Затем модель может вычислить показатель сходства материалов для каждого пикселя на изображении. Когда пользователь нажимает на пиксель, модель определяет, насколько близки по внешнему виду все остальные пиксели. Она создает карту, на которой каждый пиксель ранжируется по шкале сходства от 0 до 1.
“Пользователь просто нажимает на один пиксель, а затем модель автоматически выбирает все регионы, имеющие одинаковый материал”, – говорит он.
Поскольку модель выдает оценку сходства для каждого пикселя, пользователь может точно настроить результаты, установив порог, например, 90-процентное сходство, и получить карту изображения с выделенными регионами. Метод также работает для межизобразительного выбора – пользователь может выбрать пиксель на одном изображении и найти тот же материал на другом изображении.
В ходе экспериментов исследователи обнаружили, что их модель может предсказывать регионы изображения, содержащие один и тот же материал, более точно, чем другие методы. Когда они измерили, насколько хорошо предсказание сопоставляется с истиной, то есть с реальными областями изображения, состоящими из того же материала, их модель совпала примерно с 92-процентной точностью.
В будущем они хотят усовершенствовать модель, чтобы она могла лучше улавливать мелкие детали объектов на изображении, что повысит точность их подхода.
“Богатые материалы способствуют функциональности и красоте мира, в котором мы живем. Но алгоритмы компьютерного зрения обычно не замечают материалы, фокусируясь на объектах. Данная работа вносит важный вклад в распознавание материалов на изображениях и видео в широком диапазоне сложных условий”, – говорит Кавита Бала, декан Корнелльского колледжа вычислительной техники и информационных наук имени Бауэрса и профессор компьютерных наук, который не принимал участия в этой работе. “Эта технология может быть очень полезной как для конечных потребителей, так и для дизайнеров. Например, владелец дома может представить, как могут выглядеть такие дорогостоящие решения, как перетяжка дивана или замена коврового покрытия в комнате, и на основе этих визуализаций он сможет более уверенно выбирать дизайн”.