Исследование преобразователей изображения и языка для понимания глаголов | GPTMain News

Привязка языка к зрению является фундаментальной проблемой для многих реальных систем искусственного интеллекта, таких как получение изображений или создание описаний для людей с нарушениями зрения. Для успеха в решении этих задач необходимо, чтобы модели связывали различные аспекты языка, такие как объекты и глаголы, с изображениями. Например, чтобы различать два изображения в среднем столбце ниже, модели должны различать глаголы «поймать» и «пинать». Понимание глаголов особенно сложно, поскольку оно требует не только распознавания объектов, но и того, как различные объекты на изображении соотносятся друг с другом. Чтобы преодолеть эту трудность, мы представляем набор данных SVO-Probes и используем его для исследования моделей языка и зрения на предмет понимания глаголов.

В частности, мы рассматриваем модели мультимодальных преобразователей (например, Лу и др., 2019; Чен и др., 2020; Тан и Бансал, 2019; Ли и др., 2020), которые показали успех на различных языках и взглядах. задания. Однако, несмотря на высокие результаты в тестах, неясно, имеют ли эти модели детальное понимание мультимодальности. В частности, предыдущая работа показывает, что модели языка и зрения могут успешно справляться с тестами без мультимодального понимания: например, отвечая на вопросы об изображениях, основываясь только на языковых априорах (Agrawal et al., 2018), или «галлюцинируя» объекты, которых нет в изображении. при субтитрах к изображениям (Рорбах и др., 2018). Чтобы предвидеть ограничения модели, поработайте, как Шекхар и др. предложить специализированные оценки для систематического изучения моделей понимания языка. Однако предыдущие наборы проб ограничены по количеству объектов и глаголов. Мы разработали SVO-Probes, чтобы лучше оценить потенциальные ограничения в понимании глаголов в текущих моделях.

SVO-Probes включает в себя 48 000 пар изображений и предложений и проверяет понимание более 400 глаголов. Каждое предложение можно разбить на тройку <Подлежащее, Глагол, Объект> (или тройку SVO) и соединить с положительными и отрицательными примерами изображений. Отрицательные примеры отличаются только одним: изменяются Подлежащее, Глагол или Дополнение. На рисунке выше показаны негативные примеры, в которых подлежащее (слева), глагол (в центре) или дополнение (справа) не соответствует изображению. Такая постановка задачи позволяет выделить, с какими частями предложения у модели возникают наибольшие затруднения. Это также делает SVO-зонды более сложными, чем стандартные задачи поиска изображений, где отрицательные примеры часто совершенно не связаны с запросом.

Чтобы создать SVO-зонды, мы запрашиваем поиск изображений с помощью триплетов SVO из общего набора обучающих данных, Conceptual Captions (Шарма и др., 2018). Поскольку поиск изображений может быть зашумлен, на предварительном этапе аннотации полученные изображения фильтруются, чтобы обеспечить чистый набор пар изображение-SVO. Поскольку преобразователи обучаются на парах изображение-предложение, а не на парах изображение-SVO, нам нужны пары изображение-предложение для проверки нашей модели. Чтобы собрать предложения, описывающие каждое изображение, аннотаторы пишут для каждого изображения короткое предложение, включающее тройку SVO. Например, учитывая тройку SVO <животное, ложь, трава>, аннотатор мог бы написать предложение «Животное лежит в траве». Затем мы используем аннотации SVO, чтобы соединить каждое предложение с негативным изображением, и просим аннотаторов проверить негативы на последнем этапе аннотации. Подробности смотрите на рисунке ниже.

Мы исследуем, могут ли мультимодальные преобразователи точно классифицировать примеры как положительные или отрицательные. Гистограмма ниже иллюстрирует наши результаты. Наш набор данных сложен: наша стандартная модель мультимодального трансформатора в целом достигает точности 64,3% (вероятность составляет 50%). В то время как точность составляет 67,0% и 73,4% для предметов и объектов соответственно, производительность падает до 60,8% для глаголов. Этот результат показывает, что распознавание глаголов действительно является сложной задачей для зрительных и языковых моделей.

Мы также исследуем, какие архитектуры моделей лучше всего работают в нашем наборе данных. Удивительно, но модели с более слабым моделированием изображения работают лучше, чем стандартная модель-трансформер. Одна из гипотез заключается в том, что наша стандартная модель (с более сильными возможностями моделирования изображений) подходит для набора поездов. Поскольку обе эти модели хуже справляются с другими задачами, связанными с языком и зрением, наша целевая тестовая задача выявляет слабые места модели, которые не наблюдаются в других тестах.

В целом мы обнаружили, что, несмотря на впечатляющие результаты тестов, мультимодальные преобразователи по-прежнему испытывают трудности с детальным пониманием, особенно с детальным пониманием глаголов. Мы надеемся, что SVO-Probes поможет стимулировать изучение понимания глаголов в моделях языка и зрения и вдохновит на создание более целевых наборов данных зондов.

Посетите наш тест и модели SVO-Probes на GitHub: тесты и модели.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس