Масштабирование аудиовизуального обучения без меток | GPTMain News

Исследователи из GPTMain, GPTMain-IBM Watson AI Lab, IBM Research и других организаций разработали новую технику анализа немаркированных аудио- и визуальных данных, которая может повысить производительность моделей машинного обучения, используемых в таких приложениях, как распознавание речи и обнаружение объектов. В работе впервые сочетаются две архитектуры самоконтролируемого обучения – контрастное обучение и моделирование данных по маске – в попытке масштабировать задачи машинного обучения, такие как классификация событий в одно- и мультимодальных данных без необходимости аннотации, тем самым повторяя то, как люди понимают и воспринимают наш мир.

“Большая часть человеческих знаний усваивается самоконтролем, поскольку мы не всегда получаем сигналы контроля, и мы хотим дать модели машинного обучения такую же возможность”, – говорит Юань Гонг, постдок Массачусетского технологического института в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL).

“Другой способ выразить это заключается в том, что самоконтролируемое обучение часто составляет основу начальной модели, потому что оно может обучаться на огромных объемах немаркированных данных. А затем вы можете использовать классическое, контролируемое обучение или обучение с подкреплением для точной настройки модели на что-то конкретное, если захотите”, – говорит Джим Гласс, старший научный сотрудник Массачусетского технологического института и член лаборатории ИИ GPTMain-IBM Watson.

Техника, названная контрастным аудиовизуальным автоэнкодером с маской (CAV-MAE), представляет собой тип нейронной сети, которая может научиться извлекать и отображать значимые скрытые представления в высокоразмерном пространстве из акустических и визуальных данных путем обучения на больших массивах данных YouTube, содержащих аудио- и видеозаписи 10-секундных клипов. Исследователи утверждают, что эта методика более эффективна, чем предыдущие подходы, поскольку она явно моделирует взаимосвязи между аудио- и визуальными данными, чего не делают другие методы.

Вместе с Гонгом и Глассом в исследовании участвовали аспиранты Эндрю Рудитченко и Александр Х. Лю из Массачусетского технологического института, Дэвид Харват (David Harwath PhD ’18) из Техасского университета в Остине, а также сотрудники лаборатории ИИ GPTMain-IBM Watson Леонид Карлинский и Хильда Кюне. Кюне также является сотрудником Университета Гете во Франкфурте. Метод был недавно представлен на Международной конференции по изучению репрезентаций.

Совместный и скоординированный подход

CAV-MAE работает по принципу “обучения путем предсказания” и “обучения путем сравнения”, говорит Гонг. При моделировании данных по маске, или методе предсказания, берется видео и согласованная с ним аудиоформа волны, аудио преобразуется в спектрограмму и маскируется 75 процентов обоих. Размаскированные данные токенизируются, затем подаются в отдельные аудио- и визуальные кодеры, после чего поступают в общий кодер/декодер, где модель должна восстановить недостающие данные. Разница (потери при восстановлении) между результирующим восстановленным предсказанием и исходной аудиовизуальной комбинацией затем используется для обучения модели для улучшения производительности. В качестве примера можно привести закрытие части видео с фортепиано и части спектрограммы фортепианной музыки, а затем попросить модель попытаться определить замаскированные входы. К сожалению, этот метод может не уловить ассоциацию между парой видео и аудио, в то время как контрастное обучение использует ее, но может отбросить некоторую информацию, специфичную для конкретной модальности, например, фон в видео.

Контрастивное обучение направлено на сопоставление представлений, которые близки друг к другу. Например, модель попытается расположить различные видео- и аудиоданные о разных попугаях близко друг к другу и дальше от пар видео- и аудиоданных об игре на гитаре. Аналогично маскированному автокодированию, аудиовизуальные пары передаются в отдельные кодировщики модальностей; однако аудио- и визуальные компоненты хранятся отдельно в общем кодировщике, прежде чем модель выполнит объединение и контрастное выпадение. Таким образом, контрастное обучение пытается определить те части каждого аудио- или видеоматериала, которые наиболее релевантны другому. Например, если на видео кто-то говорит, а соответствующий аудиоклип содержит речь, автокодер научится ассоциировать движения рта говорящего с произносимыми словами. Затем он настроит параметры модели таким образом, чтобы эти входные данные были представлены близко друг к другу. В конечном итоге метод CAV-MAE объединяет обе техники с несколькими прямыми потоками данных с маскировкой в качестве первого шага, кодировщиками, специфичными для конкретной модальности, и нормализацией слоев, чтобы сила представления была одинаковой.

“Мы [then] Мы хотели сравнить предложенный CAV-MAE с моделью, обученной только с помощью маскированного автоэнкодера, и моделью, обученной только с помощью контрастного обучения, потому что мы хотели показать, что, сочетая маскированный автоэнкодер и контрастное обучение, мы можем получить некоторое улучшение производительности”, – говорит Гонг, – “и результаты подтверждают нашу гипотезу, что есть очевидное улучшение”.

Исследователи протестировали CAV-MAE – а также свой метод без контрастных потерь или автоэнкодера с маской – против других современных методов в задачах аудиовизуального поиска и классификации аудиовизуальных событий, используя стандартные наборы данных AudioSet (20K и 2M) и VGGSound – маркированные реалистичные короткие клипы, которые могут включать несколько звуков. Аудиовизуальный поиск означает, что модель видит либо аудио-, либо визуальный компонент пары запросов и ищет недостающий; классификация событий включает идентификацию действий или звуков в данных, например, пение человека или движение автомобиля.

В целом, они обнаружили, что контрастное обучение и моделирование данных по маске являются взаимодополняющими методами. CAV-MAE смог превзойти предыдущие методы (с полностью самоконтролируемым предварительным обучением) примерно на 2 процента по производительности классификации событий в сравнении с моделями с сопоставимыми вычислениями и, что более впечатляюще, не отставал или превосходил модели с вычислительными ресурсами промышленного уровня. Модель команды заняла такое же место, как и модели, обученные только с контрастными потерями. И что удивительно, по словам команды, включение мультимодальных данных в предварительное обучение CAV-MAE значительно улучшает тонкую настройку представления одной модальности с помощью контролируемого обучения (с некоторыми маркированными данными) и производительность в задачах классификации событий, связанных только с аудио. Это показывает, что, подобно людям, мультимодальная информация обеспечивает дополнительный “мягкий ярлык” даже для аудио- или визуальных задач; например, она помогает модели понять, ищет ли она электрическую или акустическую гитару – более богатый сигнал супервизора.

“Я думаю, людям нравится элегантность этой модели для объединения информации в различных аудио- и визуальных потоках. Она обладает контрастными и реконструктивными потерями, и по сравнению с моделями, которые были оценены на аналогичных данных, она явно очень хорошо справляется с целым рядом этих задач”, – говорит Гласс.

Опираясь на это, “одна особенность заключается в том, что наша модель может выполнять как классификацию, так и поиск, что встречается нечасто”, – добавляет Гонг. “До этой работы эти методы использовались по отдельности, но после этой работы я вижу, что большинство систем аудиовизуального обучения используют сокращающие потери и маскированный автоэнкодер вместе, неявно или явно”.

Внедрение самоконтролируемого аудиовизуального обучения в наш мир

Исследователи считают свой вклад в контрастный аудиовизуальный автокодер с маской (CAV-MAE) важной вехой и шагом вперед для приложений, которые все больше переходят от одной модальности к мультимодальности и которые требуют или используют аудиовизуальное слияние. Они предполагают, что однажды она может быть использована для распознавания действий в таких сферах, как спорт, образование, развлечения, автотранспорт и общественная безопасность. В один прекрасный день это может распространиться и на другие виды деятельности. На данный момент тот факт, что “это применимо только к аудиовизуальным данным, может быть ограничением, но мы нацелены на мультимодальное обучение, которое является тенденцией машинного обучения”, – говорит Гонг. “Как люди, мы обладаем мультимодальностью – у нас есть обоняние, осязание – гораздо больше вещей, чем просто аудиовизуальные данные. Поэтому, когда мы пытаемся создать ИИ, мы пытаемся как-то подражать людям, не обязательно с биологической точки зрения, и этот метод может помочь нам”. [potentially be] обобщить на другие неисследованные модальности”.

Поскольку модели машинного обучения продолжают играть все более важную роль в нашей жизни, методы, подобные этому, будут становиться все более ценными.

Это исследование было проведено при поддержке лаборатории искусственного интеллекта GPTMain-IBM Watson.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس