Исследователи из GPTMain, GPTMain-IBM Watson AI Lab, IBM Research и других организаций разработали новую технику анализа немаркированных аудио- и визуальных данных, которая может повысить производительность моделей машинного обучения, используемых в таких приложениях, как распознавание речи и обнаружение объектов. В работе впервые сочетаются две архитектуры самоконтролируемого обучения – контрастное обучение и моделирование данных по маске – в попытке масштабировать задачи машинного обучения, такие как классификация событий в одно- и мультимодальных данных без необходимости аннотации, тем самым повторяя то, как люди понимают и воспринимают наш мир.
“Большая часть человеческих знаний усваивается самоконтролем, поскольку мы не всегда получаем сигналы контроля, и мы хотим дать модели машинного обучения такую же возможность”, – говорит Юань Гонг, постдок Массачусетского технологического института в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL).
“Другой способ выразить это заключается в том, что самоконтролируемое обучение часто составляет основу начальной модели, потому что оно может обучаться на огромных объемах немаркированных данных. А затем вы можете использовать классическое, контролируемое обучение или обучение с подкреплением для точной настройки модели на что-то конкретное, если захотите”, – говорит Джим Гласс, старший научный сотрудник Массачусетского технологического института и член лаборатории ИИ GPTMain-IBM Watson.
Техника, названная контрастным аудиовизуальным автоэнкодером с маской (CAV-MAE), представляет собой тип нейронной сети, которая может научиться извлекать и отображать значимые скрытые представления в высокоразмерном пространстве из акустических и визуальных данных путем обучения на больших массивах данных YouTube, содержащих аудио- и видеозаписи 10-секундных клипов. Исследователи утверждают, что эта методика более эффективна, чем предыдущие подходы, поскольку она явно моделирует взаимосвязи между аудио- и визуальными данными, чего не делают другие методы.
Вместе с Гонгом и Глассом в исследовании участвовали аспиранты Эндрю Рудитченко и Александр Х. Лю из Массачусетского технологического института, Дэвид Харват (David Harwath PhD ’18) из Техасского университета в Остине, а также сотрудники лаборатории ИИ GPTMain-IBM Watson Леонид Карлинский и Хильда Кюне. Кюне также является сотрудником Университета Гете во Франкфурте. Метод был недавно представлен на Международной конференции по изучению репрезентаций.
Совместный и скоординированный подход
CAV-MAE работает по принципу “обучения путем предсказания” и “обучения путем сравнения”, говорит Гонг. При моделировании данных по маске, или методе предсказания, берется видео и согласованная с ним аудиоформа волны, аудио преобразуется в спектрограмму и маскируется 75 процентов обоих. Размаскированные данные токенизируются, затем подаются в отдельные аудио- и визуальные кодеры, после чего поступают в общий кодер/декодер, где модель должна восстановить недостающие данные. Разница (потери при восстановлении) между результирующим восстановленным предсказанием и исходной аудиовизуальной комбинацией затем используется для обучения модели для улучшения производительности. В качестве примера можно привести закрытие части видео с фортепиано и части спектрограммы фортепианной музыки, а затем попросить модель попытаться определить замаскированные входы. К сожалению, этот метод может не уловить ассоциацию между парой видео и аудио, в то время как контрастное обучение использует ее, но может отбросить некоторую информацию, специфичную для конкретной модальности, например, фон в видео.
Контрастивное обучение направлено на сопоставление представлений, которые близки друг к другу. Например, модель попытается расположить различные видео- и аудиоданные о разных попугаях близко друг к другу и дальше от пар видео- и аудиоданных об игре на гитаре. Аналогично маскированному автокодированию, аудиовизуальные пары передаются в отдельные кодировщики модальностей; однако аудио- и визуальные компоненты хранятся отдельно в общем кодировщике, прежде чем модель выполнит объединение и контрастное выпадение. Таким образом, контрастное обучение пытается определить те части каждого аудио- или видеоматериала, которые наиболее релевантны другому. Например, если на видео кто-то говорит, а соответствующий аудиоклип содержит речь, автокодер научится ассоциировать движения рта говорящего с произносимыми словами. Затем он настроит параметры модели таким образом, чтобы эти входные данные были представлены близко друг к другу. В конечном итоге метод CAV-MAE объединяет обе техники с несколькими прямыми потоками данных с маскировкой в качестве первого шага, кодировщиками, специфичными для конкретной модальности, и нормализацией слоев, чтобы сила представления была одинаковой.
“Мы [then] Мы хотели сравнить предложенный CAV-MAE с моделью, обученной только с помощью маскированного автоэнкодера, и моделью, обученной только с помощью контрастного обучения, потому что мы хотели показать, что, сочетая маскированный автоэнкодер и контрастное обучение, мы можем получить некоторое улучшение производительности”, – говорит Гонг, – “и результаты подтверждают нашу гипотезу, что есть очевидное улучшение”.
Исследователи протестировали CAV-MAE – а также свой метод без контрастных потерь или автоэнкодера с маской – против других современных методов в задачах аудиовизуального поиска и классификации аудиовизуальных событий, используя стандартные наборы данных AudioSet (20K и 2M) и VGGSound – маркированные реалистичные короткие клипы, которые могут включать несколько звуков. Аудиовизуальный поиск означает, что модель видит либо аудио-, либо визуальный компонент пары запросов и ищет недостающий; классификация событий включает идентификацию действий или звуков в данных, например, пение человека или движение автомобиля.
В целом, они обнаружили, что контрастное обучение и моделирование данных по маске являются взаимодополняющими методами. CAV-MAE смог превзойти предыдущие методы (с полностью самоконтролируемым предварительным обучением) примерно на 2 процента по производительности классификации событий в сравнении с моделями с сопоставимыми вычислениями и, что более впечатляюще, не отставал или превосходил модели с вычислительными ресурсами промышленного уровня. Модель команды заняла такое же место, как и модели, обученные только с контрастными потерями. И что удивительно, по словам команды, включение мультимодальных данных в предварительное обучение CAV-MAE значительно улучшает тонкую настройку представления одной модальности с помощью контролируемого обучения (с некоторыми маркированными данными) и производительность в задачах классификации событий, связанных только с аудио. Это показывает, что, подобно людям, мультимодальная информация обеспечивает дополнительный “мягкий ярлык” даже для аудио- или визуальных задач; например, она помогает модели понять, ищет ли она электрическую или акустическую гитару – более богатый сигнал супервизора.
“Я думаю, людям нравится элегантность этой модели для объединения информации в различных аудио- и визуальных потоках. Она обладает контрастными и реконструктивными потерями, и по сравнению с моделями, которые были оценены на аналогичных данных, она явно очень хорошо справляется с целым рядом этих задач”, – говорит Гласс.
Опираясь на это, “одна особенность заключается в том, что наша модель может выполнять как классификацию, так и поиск, что встречается нечасто”, – добавляет Гонг. “До этой работы эти методы использовались по отдельности, но после этой работы я вижу, что большинство систем аудиовизуального обучения используют сокращающие потери и маскированный автоэнкодер вместе, неявно или явно”.
Внедрение самоконтролируемого аудиовизуального обучения в наш мир
Исследователи считают свой вклад в контрастный аудиовизуальный автокодер с маской (CAV-MAE) важной вехой и шагом вперед для приложений, которые все больше переходят от одной модальности к мультимодальности и которые требуют или используют аудиовизуальное слияние. Они предполагают, что однажды она может быть использована для распознавания действий в таких сферах, как спорт, образование, развлечения, автотранспорт и общественная безопасность. В один прекрасный день это может распространиться и на другие виды деятельности. На данный момент тот факт, что “это применимо только к аудиовизуальным данным, может быть ограничением, но мы нацелены на мультимодальное обучение, которое является тенденцией машинного обучения”, – говорит Гонг. “Как люди, мы обладаем мультимодальностью – у нас есть обоняние, осязание – гораздо больше вещей, чем просто аудиовизуальные данные. Поэтому, когда мы пытаемся создать ИИ, мы пытаемся как-то подражать людям, не обязательно с биологической точки зрения, и этот метод может помочь нам”. [potentially be] обобщить на другие неисследованные модальности”.
Поскольку модели машинного обучения продолжают играть все более важную роль в нашей жизни, методы, подобные этому, будут становиться все более ценными.
Это исследование было проведено при поддержке лаборатории искусственного интеллекта GPTMain-IBM Watson.