Синтетические изображения устанавливают новую планку эффективности обучения ИИ | Новости Массачусетского технологического института | GPTMain News

Данные — это новая почва, и на этой новой плодородной почве исследователи Массачусетского технологического института сажают не только пиксели. Используя синтетические изображения для обучения моделей машинного обучения, группа ученых недавно превзошла результаты, полученные с помощью традиционных методов обучения «реальному изображению».

В основе подхода лежит система StableRep, которая не просто использует синтетические изображения; он генерирует их с помощью ультрапопулярных моделей преобразования текста в изображение, таких как Stable Diffusion. Это похоже на создание миров с помощью слов.

Так что же в секретном соусе StableRep? Стратегия под названием «мультипозитивное контрастивное обучение».

«Мы учим модель узнавать больше о концепциях высокого уровня через контекст и дисперсию, а не просто снабжаем ее данными», — говорит Лицзе Фан, аспирант Массачусетского технологического института в области электротехники, филиал Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). ), ведущий научный сотрудник работы. «Когда несколько изображений, созданных из одного и того же текста и рассматриваемых как изображения одного и того же основного объекта, модель глубже погружается в концепции, лежащие в основе изображений, скажем, в объект, а не только в его пиксели».

Этот подход рассматривает несколько изображений, порожденных одинаковыми текстовыми подсказками, как положительные пары, предоставляя дополнительную информацию во время обучения, не только добавляя больше разнообразия, но и указывая системе зрения, какие изображения похожи, а какие различаются. Примечательно, что StableRep затмил мастерство моделей высшего уровня, обученных на реальных изображениях, таких как SimCLR и CLIP, в обширных наборах данных.

«Хотя StableRep помогает смягчить проблемы сбора данных в машинном обучении, он также открывает путь к новой эре методов обучения искусственного интеллекта. Способность создавать высококачественные и разнообразные синтетические изображения по команде может помочь сократить обременительные расходы и ресурсы», — говорит Фан.

Процесс сбора данных никогда не был простым. Еще в 1990-х годах исследователям приходилось вручную делать фотографии, чтобы собрать наборы данных об объектах и лицах. В 2000-е годы люди искали данные в Интернете. Однако эти необработанные, непроверенные данные часто содержали расхождения по сравнению с реальными сценариями и отражали социальные предубеждения, представляя искаженное представление о реальности. Задача очистки наборов данных посредством вмешательства человека не только дорогая, но и чрезвычайно сложная. Однако представьте себе, если бы этот трудный сбор данных можно было свести к чему-то столь же простому, как выдача команды на естественном языке.

Ключевым аспектом триумфа StableRep является настройка «шкалы управления» в генеративной модели, которая обеспечивает тонкий баланс между разнообразием и точностью синтетических изображений. При точной настройке синтетические изображения, используемые при обучении этих моделей с самоконтролем, оказались столь же эффективными, если не более эффективными, чем реальные изображения.

Сделав шаг вперед, к смеси был добавлен языковой контроль, создав расширенный вариант: StableRep+. При обучении на 20 миллионах синтетических изображений StableRep+ не только достиг превосходной точности, но и продемонстрировал замечательную эффективность по сравнению с моделями CLIP, обученными на ошеломляющих 50 миллионах реальных изображений.

Тем не менее, путь вперед не лишен выбоин. Исследователи откровенно обращают внимание на несколько ограничений, в том числе текущие медленные темпы создания изображений, семантические несоответствия между текстовыми подсказками и полученными изображениями, потенциальное усиление предвзятости и сложности в атрибуции изображений, все из которых необходимо учитывать для будущих достижений. Другая проблема заключается в том, что StableRep требует предварительного обучения генеративной модели на крупномасштабных реальных данных. Команда признает, что начинать с реальных данных по-прежнему необходимо; однако, если у вас есть хорошая генеративная модель, вы можете использовать ее для новых задач, таких как обучение моделей распознавания и визуальных представлений.

Команда отмечает, что им не удалось обойти необходимость начинать с реальных данных; просто, когда у вас есть хорошая генеративная модель, вы можете использовать ее для новых задач, таких как обучение моделей распознавания и визуальных представлений.

Хотя StableRep предлагает хорошее решение, уменьшая зависимость от огромных коллекций реальных изображений, он выдвигает на передний план проблемы, связанные со скрытыми предвзятостями в непроверенных данных, используемых для этих моделей преобразования текста в изображение. Выбор текстовых подсказок, являющийся неотъемлемой частью процесса синтеза изображений, не полностью свободен от предвзятости, «указывая на важную роль тщательного выбора текста или возможного человеческого курирования», — говорит Фан.

«Используя новейшие модели преобразования текста в изображение, мы получили беспрецедентный контроль над генерацией изображений, что позволяет получать разнообразные визуальные эффекты из одного ввода текста. Это превосходит реальную коллекцию изображений по эффективности и универсальности. Он оказывается особенно полезным в специализированных задачах, таких как балансировка разнообразия изображений при распознавании «длинного хвоста», представляя собой практическое дополнение к использованию реальных изображений для обучения», — говорит Фан. «Наша работа означает шаг вперед в визуальном обучении к цели предложить экономически эффективные альтернативы обучению, одновременно подчеркивая необходимость постоянного улучшения качества и синтеза данных».

«Одна из мечтаний о генеративном моделировании уже давно заключалась в том, чтобы иметь возможность генерировать данные, полезные для различительного обучения моделей», — говорит исследователь Google DeepMind и профессор информатики Университета Торонто Дэвид Флит, который не принимал участия в работе. «Хотя мы и заметили некоторые признаки жизни, мечта оказалась неуловимой, особенно в таких крупномасштабных сложных областях, как изображения с высоким разрешением. Эта статья впервые, насколько мне известно, представляет убедительные доказательства того, что мечта становится реальностью. Они показывают, что контрастное обучение на огромных объемах данных синтетических изображений может создавать представления, которые превосходят те, которые получены на реальных данных в масштабе, с потенциалом для улучшения множества последующих задач по зрению».

К Фану присоединились Юнлун Тянь, доктор философии ’22, в качестве ведущих авторов статьи, а также доцент кафедры электротехники и информатики Массачусетского технологического института и главный исследователь CSAIL Филипп Исола; исследователь Google и технический сотрудник OpenAI Хуэйвэнь Чанг; и научный сотрудник Google Дилип Кришнан. Команда представит StableRep на конференции по нейронным системам обработки информации (NeurIPS) 2023 года в Новом Орлеане.

Синтетические изображения устанавливают новую планку эффективности обучения ИИ | Новости Массачусетского технологического института | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Синтетические изображения устанавливают новую планку эффективности обучения ИИ | Новости Массачусетского технологического института | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

Как ИИ может повлиять на защиту прав ЛГБТК+ | Новости Массачусетского технологического института | GPTMain News

Использование идей теории игр для повышения надежности языковых моделей | Новости Массачусетского технологического института | GPTMain News

Исследование объясняет, почему мозг может надежно распознавать изображения, даже без цвета | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ