Представьте, что вы несколько мгновений смотрите на оживленную улицу, а затем пытаетесь по памяти зарисовать увиденную сцену. Большинство людей могут приблизительно нарисовать расположение основных объектов, таких как автомобили, люди и пешеходные переходы, но почти никто не может нарисовать каждую деталь с точностью до пикселя. То же самое верно и для большинства современных алгоритмов компьютерного зрения: они великолепно захватывают детали сцены высокого уровня, но теряют мелкие детали при обработке информации.
Теперь исследователи из Массачусетского технологического института создали систему под названием «FeatUp», которая позволяет алгоритмам одновременно захватывать все детали сцены высокого и низкого уровня — почти как операция Lasik для компьютерного зрения.
Когда компьютеры учатся «видеть», просматривая изображения и видео, они создают «представления» о том, что находится в сцене, с помощью так называемых «функций». Чтобы создать эти функции, глубокие сети и модели визуальной основы разбивают изображения на сетку крошечных квадратов и обрабатывают эти квадраты как группу, чтобы определить, что происходит на фотографии. Каждый крошечный квадрат обычно состоит из от 16 до 32 пикселей, поэтому разрешение этих алгоритмов значительно меньше, чем у изображений, с которыми они работают. Пытаясь обобщить и понять фотографии, алгоритмы теряют массу пикселей.
Алгоритм FeatUp может остановить эту потерю информации и повысить разрешение любой глубокой сети без ущерба для скорости и качества. Это позволяет исследователям быстро и легко улучшить разрешающую способность любого нового или существующего алгоритма. Например, представьте, что вы пытаетесь интерпретировать предсказания алгоритма обнаружения рака легких с целью локализации опухоли. Применение FeatUp перед интерпретацией алгоритма с использованием такого метода, как карты активации классов (CAM), может дать значительно более детальное (16-32x) представление о том, где может располагаться опухоль в соответствии с моделью.
FeatUp не только помогает практикам понять свои модели, но также может улучшить набор различных задач, таких как обнаружение объектов, семантическая сегментация (назначение меток пикселям изображения с помощью меток объектов) и оценка глубины. Это достигается за счет предоставления более точных функций с высоким разрешением, которые имеют решающее значение для создания приложений машинного зрения, начиная от автономного вождения и заканчивая медицинской визуализацией.
«Суть всего компьютерного зрения заключается в этих глубоких интеллектуальных функциях, которые возникают из глубин архитектур глубокого обучения. Большая проблема современных алгоритмов заключается в том, что они сводят большие изображения к очень маленьким сеткам «умных» функций, получая интеллектуальную информацию, но теряя более мелкие детали», — говорит Марк Гамильтон, аспирант Массачусетского технологического института в области электротехники и информатики, MIT Computer Science. и филиал Лаборатории искусственного интеллекта (CSAIL), а также соавтор статьи о проекте. «FeatUp помогает использовать лучшее из обоих миров: высокоинтеллектуальные представления с исходным разрешением изображения. Эти функции высокого разрешения значительно повышают производительность при решении широкого спектра задач компьютерного зрения: от улучшения обнаружения объектов и улучшения прогнозирования глубины до обеспечения более глубокого понимания процесса принятия решений в вашей сети посредством анализа с высоким разрешением».
Ренессанс разрешения
Поскольку эти крупные модели ИИ становятся все более и более распространенными, растет потребность объяснять, что они делают, на что смотрят и о чем думают.
Но как именно FeatUp может обнаружить эти мелкие детали? Любопытно, что секрет заключается в шевелящихся и покачивающихся изображениях.
В частности, FeatUp применяет незначительные корректировки (например, перемещает изображение на несколько пикселей влево или вправо) и наблюдает, как алгоритм реагирует на эти небольшие перемещения изображения. В результате получаются сотни карт с глубокими объектами, которые немного отличаются друг от друга, и которые можно объединить в один четкий набор с высоким разрешением. «Мы представляем, что существуют некоторые объекты с высоким разрешением, и что когда мы их покачиваем и размываем, они будут соответствовать всем исходным функциям с более низким разрешением из покачиваемых изображений. Наша цель — научиться превращать объекты с низким разрешением в элементы с высоким разрешением, используя эту «игру», которая позволяет нам узнать, насколько хорошо мы справляемся», — говорит Гамильтон. Эта методология аналогична тому, как алгоритмы могут создавать 3D-модель из нескольких 2D-изображений, гарантируя, что прогнозируемый 3D-объект соответствует всем 2D-фотографиям, использованным для его создания. В случае FeatUp они прогнозируют карту объектов с высоким разрешением, которая согласуется со всеми картами объектов с низким разрешением, сформированными путем дрожания исходного изображения.
Команда отмечает, что стандартных инструментов, доступных в PyTorch, было недостаточно для их нужд, и в поисках быстрого и эффективного решения представила новый тип глубокого сетевого уровня. Их специальный слой, специальная совместная двусторонняя операция повышения дискретизации, был более чем в 100 раз эффективнее, чем простая реализация в PyTorch. Команда также показала, что этот новый слой может улучшить широкий спектр различных алгоритмов, включая семантическую сегментацию и прогнозирование глубины. Этот уровень улучшил способность сети обрабатывать и понимать детали высокого разрешения, давая любому алгоритму, который его использовал, существенный прирост производительности.
«Еще одно приложение — это поиск небольших объектов, где наш алгоритм позволяет точно локализовать объекты. Например, даже в загроможденных дорожных сценах алгоритмы, обогащенные FeatUp, могут видеть крошечные объекты, такие как дорожные конусы, отражатели, фонари и выбоины, там, где их собратья с низким разрешением не могут. Это демонстрирует его способность превращать грубые характеристики в детально детализированные сигналы», — говорит Стефани Фу ’22, MNG ’23, аспирант Калифорнийского университета в Беркли и еще один соавтор новой статьи FeatUp. «Это особенно важно для срочных задач, таких как определение местоположения дорожного знака на загроможденной скоростной автомагистрали с помощью беспилотного автомобиля. Это может не только повысить точность таких задач, превращая общие предположения в точную локализацию, но также может сделать эти системы более надежными, интерпретируемыми и заслуживающими доверия».
Что дальше?
Что касается будущих устремлений, команда подчеркивает потенциальное широкое распространение FeatUp в исследовательском сообществе и за его пределами, аналогично практикам увеличения данных. «Цель состоит в том, чтобы сделать этот метод фундаментальным инструментом глубокого обучения, обогащая модели для более детального восприятия мира без вычислительной неэффективности традиционной обработки с высоким разрешением», — говорит Фу.
«FeatUp представляет собой замечательный шаг на пути к тому, чтобы сделать визуальные представления действительно полезными, создавая их с полным разрешением изображения», — говорит профессор информатики Корнелльского университета Ной Снавли, который не принимал участия в исследовании. «За последние несколько лет изученные визуальные представления стали действительно хороши, но они почти всегда создаются с очень низким разрешением — вы можете вставить красивую фотографию в полном разрешении и получить крошечную сетку объектов размером с почтовую марку. Это проблема, если вы хотите использовать эти функции в приложениях, производящих выходные данные с полным разрешением. FeatUp творчески решает эту проблему, сочетая классические идеи в сверхвысоком разрешении с современными подходами к обучению, что приводит к созданию красивых карт объектов с высоким разрешением».
«Мы надеемся, что эта простая идея найдет широкое применение. Он предоставляет версии анализа изображений с высоким разрешением, которые, как мы думали раньше, могут быть только с низким разрешением», — говорит старший автор Уильям Т. Фриман, профессор электротехники и информатики Массачусетского технологического института и член CSAIL.
Ведущих авторов Фу и Гамильтона сопровождают аспиранты Массачусетского технологического института Лаура Брандт С.М. ’21 и Аксель Фельдман С.М. ’21, а также Чжутун Чжан С.М. ’21, доктор философии ’22, все действующие или бывшие филиалы MIT CSAIL. Их исследования частично поддерживаются стипендией для аспирантов Национального научного фонда., Национальным научным фондом и Управлением директора национальной разведки, Исследовательской лабораторией ВВС США и Ускорителем искусственного интеллекта ВВС США. Группа представит свою работу в мае на Международной конференции по изучению представлений.