Модель искусственного интеллекта ускоряет компьютерное зрение высокого разрешения | Новости Массачусетского технологического института | GPTMain News

Автономное транспортное средство должно быстро и точно распознавать объекты, с которыми оно сталкивается: от стоящего на холостом ходу грузовика, припаркованного на углу, до велосипедиста, мчащегося к приближающемуся перекрестку.

Для этого автомобиль может использовать мощную модель компьютерного зрения, чтобы классифицировать каждый пиксель изображения этой сцены с высоким разрешением, чтобы не упускать из виду объекты, которые могут быть скрыты на изображении более низкого качества. Но эта задача, известная как семантическая сегментация, сложна и требует огромного количества вычислений, когда изображение имеет высокое разрешение.

Исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта MIT-IBM Watson и других организаций разработали более эффективную модель компьютерного зрения, которая значительно снижает вычислительную сложность этой задачи. Их модель может точно выполнять семантическую сегментацию в режиме реального времени на устройстве с ограниченными аппаратными ресурсами, например, на бортовых компьютерах, которые позволяют автономному транспортному средству принимать решения за доли секунды.

Последние современные модели семантической сегментации напрямую изучают взаимодействие между каждой парой пикселей изображения, поэтому их расчеты растут квадратично по мере увеличения разрешения изображения. По этой причине, хотя эти модели и точны, они слишком медленны для обработки изображений высокого разрешения в реальном времени на периферийном устройстве, таком как датчик или мобильный телефон.

Исследователи Массачусетского технологического института разработали новый строительный блок для моделей семантической сегментации, который обеспечивает те же возможности, что и эти современные модели, но с линейной вычислительной сложностью и эффективными аппаратными операциями.

Результатом стала новая серия моделей для компьютерного зрения высокого разрешения, которая при развертывании на мобильном устройстве работает до девяти раз быстрее, чем предыдущие модели. Важно отметить, что эта новая серия моделей продемонстрировала такую ​​же или лучшую точность, чем эти альтернативы.

Этот метод можно использовать не только для помощи автономным транспортным средствам в принятии решений в режиме реального времени, но и для повышения эффективности других задач компьютерного зрения с высоким разрешением, таких как сегментация медицинских изображений.

«Хотя исследователи уже довольно давно используют традиционные преобразователи зрения, и они дают потрясающие результаты, мы хотим, чтобы люди также обращали внимание на аспект эффективности этих моделей. Наша работа показывает, что можно значительно сократить объем вычислений, чтобы сегментация изображений в реальном времени могла происходить локально на устройстве», — говорит Сун Хан, доцент кафедры электротехники и компьютерных наук (EECS), член Лаборатории искусственного интеллекта MIT-IBM Watson и старший автор статьи, описывающей новую модель.

В работе над статьей к нему присоединяется ведущий автор Хан Цай, аспирант EECS; Джуньянь Ли, студентка Чжэцзянского университета; Муян Ху, студентка Университета Цинхуа; и Чуанг Ган, главный научный сотрудник лаборатории MIT-IBM Watson AI Lab. Исследование будет представлено на Международной конференции по компьютерному зрению.

Упрощенное решение

Классификация каждого пикселя изображения с высоким разрешением, которое может содержать миллионы пикселей, является сложной задачей для модели машинного обучения. В последнее время эффективно используется новый мощный тип модели, известный как преобразователь зрения.

Трансформеры изначально были разработаны для обработки естественного языка. В этом контексте они кодируют каждое слово в предложении как токен, а затем генерируют карту внимания, которая фиксирует отношения каждого токена со всеми другими токенами. Эта карта внимания помогает модели понимать контекст, когда она делает прогнозы.

Используя ту же концепцию, преобразователь зрения разбивает изображение на участки пикселей и кодирует каждый небольшой участок в токен перед созданием карты внимания. При создании этой карты внимания модель использует функцию сходства, которая напрямую изучает взаимодействие между каждой парой пикселей. Таким образом, модель создает так называемое глобальное рецептивное поле, что означает, что она может получить доступ ко всем соответствующим частям изображения.

Поскольку изображение с высоким разрешением может содержать миллионы пикселей, разбитых на тысячи участков, карта внимания быстро становится огромной. Из-за этого объем вычислений растет квадратично по мере увеличения разрешения изображения.

В своей новой серии моделей под названием EfficientViT исследователи из Массачусетского технологического института использовали более простой механизм построения карты внимания — замену нелинейной функции сходства на линейную функцию сходства. Таким образом, они могут изменить порядок операций, чтобы сократить общий объем вычислений, не меняя при этом функциональность и не теряя глобального рецептивного поля. В их модели объем вычислений, необходимый для прогнозирования, растет линейно по мере роста разрешения изображения.

«Но бесплатных обедов не бывает. Линейное внимание фиксирует только глобальный контекст изображения, теряя локальную информацию, что ухудшает точность», — говорит Хан.

Чтобы компенсировать эту потерю точности, исследователи включили в свою модель два дополнительных компонента, каждый из которых требует лишь небольшого объема вычислений.

Один из этих элементов помогает модели фиксировать взаимодействие локальных объектов, смягчая слабость линейной функции при извлечении локальной информации. Второй модуль, обеспечивающий многомасштабное обучение, помогает модели распознавать как большие, так и маленькие объекты.

«Самое важное здесь заключается в том, что нам необходимо тщательно сбалансировать производительность и эффективность», — говорит Цай.

Они разработали EfficientViT с дружественной к аппаратному обеспечению архитектурой, поэтому его будет проще запускать на различных типах устройств, таких как гарнитуры виртуальной реальности или периферийные компьютеры на автономных транспортных средствах. Их модель также может быть применена к другим задачам компьютерного зрения, таким как классификация изображений.

Оптимизация семантической сегментации

Когда они протестировали свою модель на наборах данных, используемых для семантической сегментации, они обнаружили, что на графическом процессоре (GPU) Nvidia она работает до девяти раз быстрее, чем другие популярные модели преобразователей зрения, с такой же или лучшей точностью.

«Теперь мы можем получить лучшее из обоих миров и сократить объем вычислений, чтобы сделать их достаточно быстрыми, чтобы мы могли запускать их на мобильных и облачных устройствах», — говорит Хан.

Основываясь на этих результатах, исследователи хотят применить эту технику для ускорения генеративных моделей машинного обучения, например тех, которые используются для создания новых изображений. Они также хотят продолжить масштабирование EfficientViT для решения других задач машинного зрения.

«Эффективные модели-трансформеры, впервые разработанные командой профессора Сун Хана, теперь составляют основу передовых технологий в различных задачах компьютерного зрения, включая обнаружение и сегментацию», — говорит Лу Тянь, старший директор по алгоритмам искусственного интеллекта в AMD, Inc., который был не связан с этой статьей. «Их исследования не только демонстрируют эффективность и возможности преобразователей, но также раскрывают их огромный потенциал для реальных приложений, таких как повышение качества изображения в видеоиграх».

«Сжатие моделей и проектирование облегченных моделей являются важнейшими темами исследований для эффективных вычислений ИИ, особенно в контексте крупных базовых моделей. Группа профессора Сон Хана продемонстрировала замечательный прогресс в сжатии и ускорении современных моделей глубокого обучения, в частности преобразователей зрения», — добавляет Джей Джексон, глобальный вице-президент по искусственному интеллекту и машинному обучению в Oracle, который не участвовал в этом исследовании. «Oracle Cloud Infrastructure поддерживает его команду в продвижении этого направления эффективных исследований в направлении эффективного и экологичного искусственного интеллекта».

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس