Помощь компьютерному зрению и языковым моделям понять то, что они видят | Новости Массачусетского технологического института | GPTMain News

Мощные алгоритмы машинного обучения, известные как модели зрения и языка, которые учатся сопоставлять текст с изображениями, показали замечательные результаты, когда их просили создавать субтитры или резюмировать видео.

Хотя эти модели превосходно идентифицируют объекты, им часто сложно понять такие понятия, как атрибуты объектов или расположение элементов на сцене. Например, модель зрения и языка может распознать чашку и стол на изображении, но не понять, что чашка стоит на столе.

Исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта MIT-IBM Watson и других организаций продемонстрировали новую технику, которая использует сгенерированные компьютером данные, чтобы помочь моделям зрения и языка преодолеть этот недостаток.

Исследователи создали синтетический набор данных изображений, которые отображают широкий спектр сценариев, расположения объектов и действий человека в сочетании с подробными текстовыми описаниями. Они использовали этот аннотированный набор данных, чтобы «исправить» модели зрения и языка, чтобы они могли более эффективно изучать концепции. Их техника гарантирует, что эти модели по-прежнему смогут делать точные прогнозы, когда видят реальные изображения.

Когда они протестировали модели понимания концепций, исследователи обнаружили, что их метод повысил точность до 10 процентов. Это могло бы улучшить системы, автоматически добавляющие субтитры к видео, или улучшить модели, дающие ответы на вопросы об изображениях на естественном языке, с помощью приложений в таких областях, как электронная коммерция или здравоохранение.

«В этой работе мы выходим за рамки существительных в том смысле, что мы выходим за рамки просто названий объектов и переходим к семантической концепции объекта и всего, что его окружает. Наша идея заключалась в том, что, когда модель машинного обучения видит объекты в самых разных расположениях, она будет лучше понимать, какое значение расположение имеет в сцене», — говорит Халед Шехада, аспирант кафедры электротехники и компьютерных наук. соавтор статьи по этой методике.

Шехада написала статью вместе с ведущим автором Паолой Касканте-Бонилья, аспиранткой по информатике в Университете Райса; Одева Олива, директор по стратегическому взаимодействию с промышленностью в Вычислительном колледже Массачусетского технологического института им. Шварцмана, директор MIT-IBM Watson AI Lab и старший научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); старший автор Леонид Карлинский, научный сотрудник лаборатории MIT-IBM Watson AI Lab; и другие в Массачусетском технологическом институте, Лаборатории ИИ Watson MIT-IBM, Технологическом институте Джорджии, Университете Райса, École des Ponts, Научном институте Вейцмана и IBM Research. Доклад будет представлен на Международной конференции по компьютерному зрению.

Фокусировка на объектах

Модели зрения и языка обычно учатся идентифицировать объекты на сцене и могут в конечном итоге игнорировать атрибуты объекта, такие как цвет и размер, или позиционные отношения, например, какой объект находится поверх другого объекта.

Это связано с методом, с помощью которого эти модели часто обучаются, известным как контрастное обучение. Этот метод обучения предполагает принуждение модели предсказывать соответствие между изображениями и текстом. При сравнении естественных изображений объекты в каждой сцене, как правило, вызывают наиболее разительные различия. (Возможно, на одном изображении изображена лошадь в поле, а на втором — парусник на воде.)

«Каждое изображение может быть однозначно определено объектами на изображении. Итак, когда вы проводите контрастное обучение, просто сосредоточьтесь на существительных и объектах, чтобы решить проблему. Почему модель должна делать что-то по-другому?» — говорит Карлинский.

Исследователи стремились смягчить эту проблему, используя синтетические данные для точной настройки модели зрения и языка. Процесс тонкой настройки включает в себя настройку уже обученной модели для улучшения ее производительности при выполнении конкретной задачи.

Они использовали компьютер для автоматического создания синтетических видеороликов с разнообразной трехмерной средой и объектами, такими как мебель и багаж, и добавили человеческие аватары, которые взаимодействовали с объектами.

Используя отдельные кадры этих видеороликов, они создали около 800 000 фотореалистичных изображений, а затем снабдили каждое подробной подписью. Исследователи разработали методологию аннотирования каждого аспекта изображения, чтобы четко и последовательно фиксировать атрибуты объекта, позиционные отношения и взаимодействия человека с объектом в плотных подписях.

Поскольку исследователи создавали изображения, они могли контролировать внешний вид и положение объектов, а также пол, одежду, позы и действия человеческих аватаров.

«Синтетические данные допускают большое разнообразие. С реальными изображениями в комнате может быть не так много слонов, но с синтетическими данными вы действительно можете иметь розового слона в комнате с человеком, если хотите», — говорит Касканте-Бонилья.

Синтетические данные имеют и другие преимущества. Их дешевле генерировать, чем реальные данные, но изображения очень фотореалистичны. Они также сохраняют конфиденциальность, поскольку на изображениях не изображены настоящие люди. А поскольку данные автоматически создаются компьютером, их можно быстро генерировать в огромных количествах.

Используя разные точки зрения камеры или слегка меняя положение или атрибуты объектов, исследователи создали набор данных с гораздо более широким разнообразием сценариев, чем можно было бы найти в естественном наборе данных.

Настройте, но не забывайте

Однако при точной настройке модели с использованием синтетических данных существует риск того, что модель может «забыть» то, чему она научилась при первоначальном обучении на реальных данных.

Исследователи применили несколько методов, чтобы предотвратить эту проблему, например, настроили синтетические данные так, чтобы цвета, освещение и тени более точно соответствовали естественным изображениям. Они также внесли изменения во внутреннюю работу модели после тонкой настройки, чтобы еще больше уменьшить вероятность забывчивости.

Их синтетический набор данных и стратегия тонкой настройки улучшили способность популярных моделей видения и языка точно распознавать концепции до 10 процентов. При этом модели не забывали то, чему уже научились.

Теперь, когда они показали, как синтетические данные могут быть использованы для решения этой проблемы, исследователи хотят определить способы улучшения визуального качества и разнообразия этих данных, а также лежащую в их основе физику, которая делает синтетические сцены реалистичными. Кроме того, они планируют проверить пределы масштабируемости и выяснить, не выходит ли улучшение модели на плато при использовании более крупных и разнообразных наборов синтетических данных.

Это исследование частично финансируется Агентством перспективных исследовательских проектов Министерства обороны США, Национальным научным фондом и Лабораторией ИИ Watson MIT-IBM.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس