Исследовать
Новый агент фонда учится управлять различными роботизированными руками, решает задачи всего за 100 демонстраций и совершенствуется на основе самостоятельно сгенерированных данных.
Роботы быстро становятся частью нашей повседневной жизни, но зачастую они запрограммированы только на хорошее выполнение определенных задач. Хотя использование последних достижений в области искусственного интеллекта может привести к созданию роботов, которые могли бы помочь во многих других отношениях, прогресс в создании роботов общего назначения происходит медленнее, отчасти из-за времени, необходимого для сбора реальных обучающих данных.
В нашей последней статье представлен самосовершенствующийся ИИ-агент для робототехники RoboCat, который учится выполнять различные задачи с помощью разных рук, а затем самостоятельно генерирует новые обучающие данные для улучшения своей техники.
Предыдущие исследования изучали, как разработать роботов, которые могут научиться выполнять многозадачные задачи в большом масштабе и сочетать понимание языковых моделей с реальными возможностями робота-помощника. RoboCat — первый агент, который решает и адаптируется к нескольким задачам, причем с помощью разных реальных роботов.
RoboCat учится намного быстрее, чем другие современные модели. Он может выполнить новую задачу всего за 100 демонстраций, поскольку он опирается на большой и разнообразный набор данных. Эта возможность поможет ускорить исследования в области робототехники, поскольку снижает потребность в обучении под наблюдением человека и является важным шагом на пути к созданию робота общего назначения.
Как RoboCat совершенствует себя
RoboCat основан на нашей мультимодальной модели Gato (по-испански «кошка»), которая может обрабатывать язык, изображения и действия как в моделируемой, так и в физической среде. Мы объединили архитектуру Gato с большим набором обучающих данных, состоящим из последовательностей изображений и действий различных роботов-манипуляторов, решающих сотни различных задач.
После этого первого раунда обучения мы запустили RoboCat в цикл обучения «самосовершенствования» с набором ранее невиданных задач. Изучение каждой новой задачи состояло из пяти этапов:
- Соберите 100–1000 демонстраций новой задачи или робота, используя роботизированную руку, управляемую человеком.
- Настройте RoboCat на эту новую задачу/руку, создав специализированный дополнительный агент.
- Дополнительный агент тренируется в этой новой задаче/руке в среднем 10 000 раз, генерируя больше обучающих данных.
- Включите демонстрационные данные и самостоятельно сгенерированные данные в существующий набор обучающих данных RoboCat.
- Обучите новую версию RoboCat на новом наборе обучающих данных.
Цикл обучения RoboCat, усиленный его способностью автономно генерировать дополнительные данные обучения.
Сочетание всего этого обучения означает, что новейший RoboCat основан на наборе данных из миллионов траекторий как реальных, так и смоделированных роботизированных рук, включая данные, сгенерированные самостоятельно. Мы использовали четыре различных типа роботов и множество роботизированных манипуляторов для сбора данных на основе зрения, представляющих задачи, которым RoboCat будет обучен выполнять.
RoboCat учится на разнообразных типах обучающих данных и задачах: видео, где настоящая роботизированная рука собирает шестерни, смоделированная рука укладывает блоки, а также RoboCat использует роботизированную руку, чтобы поднять огурец.
Научимся управлять новым роботизированным оружием и решать более сложные задачи
Благодаря разнообразному обучению RoboCat научился управлять различными роботизированными руками за несколько часов. Несмотря на то, что он был обучен работе с руками с двухзубыми захватами, он смог адаптироваться к более сложной руке с трехпалым захватом и вдвое большим количеством контролируемых воздействий.
Левый: Новую роботизированную руку RoboCat научился контролировать
Верно: Видео Робокота, использующего руку для подбора передач
После наблюдения за 1000 демонстрациями, управляемыми человеком, собранными всего за несколько часов, RoboCat смог достаточно ловко управлять этой новой рукой, чтобы успешно переключать передачи в 86% случаев. При том же уровне демонстраций он мог бы адаптироваться для решения задач, сочетающих в себе точность и понимание, таких как извлечение правильных фруктов из миски и решение головоломки с сопоставлением форм, которые необходимы для более сложного управления.
Примеры задач, к решению которых RoboCat может адаптироваться после 500-1000 демонстраций.
Самосовершенствующийся универсал
RoboCat имеет эффективный цикл обучения: чем больше новых задач он изучает, тем лучше он справляется с дополнительными новыми задачами. Первоначальная версия RoboCat была успешной только в 36% случаев при выполнении ранее невиданных задач после обучения на 500 демонстрациях каждой задачи. Но последний RoboCat, обученный выполнять более разнообразные задачи, более чем удвоил этот показатель успеха при выполнении тех же задач.
Большая разница в производительности между первоначальным RoboCat (один раунд обучения) и финальной версией (обширное и разнообразное обучение, включая самосовершенствование) после того, как обе версии были доработаны на 500 демонстрациях ранее невиданных задач.
Эти улучшения были обусловлены растущим опытом RoboCat, подобно тому, как люди развивают более разнообразный спектр навыков по мере углубления своего обучения в определенной области. Способность RoboCat самостоятельно осваивать навыки и быстро самосовершенствоваться, особенно при применении к различным роботизированным устройствам, поможет проложить путь к новому поколению более полезных роботов-агентов общего назначения.