Компьютеры обладают двумя замечательными способностями по отношению к изображениям: они могут как идентифицировать их, так и генерировать заново. Исторически эти функции стояли раздельно, подобно разрозненным действиям повара, умеющего создавать блюда (поколение), и знатока, умеющего дегустировать блюда (узнавание).
Тем не менее, нельзя не задаться вопросом: что нужно, чтобы организовать гармоничный союз между этими двумя отличительными способностями? И шеф-повар, и знаток имеют общее понимание вкуса еды. Точно так же система единого зрения требует глубокого понимания визуального мира.
Теперь исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) обучили систему делать выводы о недостающих частях изображения — задача, требующая глубокого понимания содержания изображения. Успешно заполняя пробелы, система, известная как Masked Generative Encoder (MAGE), одновременно достигает двух целей: точно идентифицирует изображения и создает новые, поразительно похожие на реальность.
Эта система двойного назначения обеспечивает множество потенциальных приложений, таких как идентификация и классификация объектов в изображениях, быстрое обучение на минимальных примерах, создание изображений в определенных условиях, таких как текст или класс, и улучшение существующих изображений.
В отличие от других методов, MAGE не работает с необработанными пикселями. Вместо этого он преобразует изображения в так называемые «семантические маркеры», которые представляют собой компактные, но абстрактные версии раздела изображения. Думайте об этих жетонах как о кусочках мини-пазла, каждый из которых представляет собой фрагмент исходного изображения размером 16×16. Точно так же, как слова образуют предложения, эти токены создают абстрактную версию изображения, которую можно использовать для сложных задач обработки, сохраняя при этом информацию в исходном изображении. Такой шаг токенизации можно обучить в рамках самоконтролируемой среды, что позволяет проводить предварительную подготовку на больших наборах данных изображений без меток.
Теперь волшебство начинается, когда MAGE использует «моделирование замаскированных токенов». Он случайным образом скрывает некоторые из этих токенов, создавая незавершенную головоломку, а затем обучает нейронную сеть заполнять пробелы. Таким образом, он учится как понимать закономерности в изображении (распознавание изображений), так и генерировать новые (генерация изображений).
«Одна замечательная часть MAGE — это его переменная стратегия маскирования во время предварительного обучения, что позволяет ему обучаться любой задаче, созданию изображений или распознаванию в одной и той же системе», — говорит Тяньхонг Ли, аспирант в области электротехники и информатики в Массачусетском технологическом институте. , филиал CSAIL и ведущий автор статьи об исследовании. «Способность MAGE работать в «пространстве маркеров», а не в «пространстве пикселей», приводит к созданию четких, детализированных и высококачественных изображений, а также к семантически богатым представлениям изображений. Мы надеемся, что это может проложить путь к продвинутым и интегрированным моделям компьютерного зрения».
Помимо возможности создавать реалистичные изображения с нуля, MAGE также позволяет создавать условные изображения. Пользователи могут указать определенные критерии для изображений, которые они хотят создать с помощью MAGE, и инструмент подготовит соответствующее изображение. Он также может выполнять задачи редактирования изображений, такие как удаление элементов из изображения с сохранением реалистичного внешнего вида.
Задачи на распознавание — еще одна сильная сторона MAGE. Благодаря возможности предварительной подготовки на больших немаркированных наборах данных он может классифицировать изображения, используя только изученные представления. Кроме того, он превосходен в обучении за несколько шагов, достигая впечатляющих результатов на больших наборах данных изображений, таких как ImageNet, всего с несколькими помеченными примерами.
Проверка производительности MAGE была впечатляющей. С одной стороны, он установил новые рекорды в создании новых изображений, значительно превзойдя предыдущие модели. С другой стороны, MAGE лидирует в задачах распознавания, достигая точности 80,9 % при линейном зондировании и 71,9 % точности по 10 кадрам в ImageNet (это означает, что он правильно идентифицировал изображения в 71,9 % случаев, когда у него было только 10 помеченных примеров из каждого). сорт).
Несмотря на сильные стороны, исследовательская группа признает, что MAGE находится в стадии разработки. Процесс преобразования изображений в токены неизбежно приводит к некоторой потере информации. Они стремятся изучить способы сжатия изображений без потери важных деталей в будущей работе. Команда также намерена протестировать MAGE на больших наборах данных. Будущие исследования могут включать в себя обучение MAGE на больших немаркированных наборах данных, что может привести к еще большей производительности.
«Мы давно мечтали о создании и распознавании изображений в одной системе. MAGE — это новаторское исследование, которое успешно использует синергию этих двух задач и достигает их современного состояния в одной единственной системе», — говорит Хуйшэн Ван, старший инженер-программист отдела исследований и машинного интеллекта. подразделение в Google, которое не участвовало в работе. «Эта инновационная система имеет широкое применение и может вдохновить на многие будущие работы в области компьютерного зрения».
Ли написал статью вместе с Диной Катаби, профессором Туана и Николь Фам факультета электротехники и компьютерных наук Массачусетского технологического института и главным исследователем CSAIL; Хуэйвен Чанг, старший научный сотрудник Google; Шлок Кумар Мишра, аспирант Мэрилендского университета и стажер Google Research; Хань Чжан, старший научный сотрудник Google; и Дилип Кришнан, штатный научный сотрудник Google. Вычислительные ресурсы были предоставлены Google Cloud Platform и MIT-IBM Watson AI Lab. Исследование команды было представлено на конференции 2023 года по компьютерному зрению и распознаванию образов.