Допустим, вы хотите обучить робота, чтобы он понял, как пользоваться инструментами, а затем быстро научился делать ремонт в вашем доме с помощью молотка, гаечного ключа и отвертки. Для этого вам понадобится огромное количество данных, демонстрирующих использование инструмента.
Существующие наборы роботизированных данных сильно различаются по модальности — некоторые включают, например, цветные изображения, а другие состоят из тактильных отпечатков. Данные также могут быть собраны в различных областях, таких как моделирование или человеческие демонстрации. И каждый набор данных может охватывать уникальную задачу и среду.
Трудно эффективно объединить данные из такого количества источников в одну модель машинного обучения, поэтому многие методы используют только один тип данных для обучения робота. Но роботы, обученные таким образом, имея относительно небольшой объем данных для конкретных задач, часто не могут выполнять новые задачи в незнакомых условиях.
Стремясь улучшить качество обучения многоцелевых роботов, исследователи Массачусетского технологического института разработали метод объединения нескольких источников данных из разных областей, модальностей и задач с использованием типа генеративного искусственного интеллекта, известного как диффузионные модели.
Они обучают отдельную модель распространения, чтобы изучить стратегию или политику выполнения одной задачи с использованием одного конкретного набора данных. Затем они объединяют политики, полученные с помощью моделей распространения, в общую политику, которая позволяет роботу выполнять несколько задач в различных условиях.
В симуляциях и реальных экспериментах этот подход к обучению позволил роботу выполнять несколько задач с использованием инструментов и адаптироваться к новым задачам, которые он не видел во время обучения. Этот метод, известный как «Композиция политик» (PoCo), привел к повышению производительности задач на 20 процентов по сравнению с базовыми методами.
«Решение проблемы неоднородности в наборах роботизированных данных похоже на проблему куриного яйца. Если мы хотим использовать много данных для обучения общим политикам роботов, то сначала нам нужны развертываемые роботы, чтобы получить все эти данные. Я думаю, что использование всех доступных разнородных данных, подобно тому, что исследователи сделали с ChatGPT, является важным шагом для области робототехники», — говорит Лируй Ванг, аспирант электротехники и информатики (EECS) и ведущий автор статьи. на PoCo.
Среди соавторов Вана Цзялян Чжао, аспирант машиностроения; Илун Ду, аспирантка EECS; Эдвард Адельсон, профессор науки о зрении Джона и Дороти Уилсон на факультете наук о мозге и когнитивных науках и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и старший автор Расс Тедрейк, профессор Toyota в области EECS, аэронавтики и космонавтики и машиностроения, а также член CSAIL. Исследование будет представлено на конференции «Робототехника: наука и системы».
Объединение разрозненных наборов данных
Роботизированная политика — это модель машинного обучения, которая принимает входные данные и использует их для выполнения действия. Один из способов рассматривать политику как стратегию. В случае с роботизированной рукой такой стратегией может быть траектория или серия поз, в которых рука перемещается так, что она берет молоток и забивает им гвоздь.
Наборы данных, используемые для изучения роботизированных политик, обычно невелики и ориентированы на одну конкретную задачу и среду, например упаковку товаров в коробки на складе.
«Каждый роботизированный склад генерирует терабайты данных, но они принадлежат только той конкретной роботизированной установке, которая работает с этими пакетами. Это не идеальный вариант, если вы хотите использовать все эти данные для обучения обычной машины», — говорит Ван.
Исследователи из Массачусетского технологического института разработали метод, который может использовать серию небольших наборов данных, например, собранных из многих роботизированных складов, изучать отдельные политики каждого из них и комбинировать политики таким образом, чтобы робот мог обобщать их для многих задач.
Они представляют каждую политику, используя тип генеративной модели ИИ, известный как модель диффузии. Модели диффузии, часто используемые для генерации изображений, учатся создавать новые образцы данных, которые напоминают образцы в обучающем наборе данных, путем итеративного уточнения их выходных данных.
Но вместо того, чтобы обучать диффузионную модель генерированию изображений, исследователи учат ее генерировать траекторию движения робота. Они делают это, добавляя шум к траекториям в наборе обучающих данных. Диффузионная модель постепенно удаляет шум и превращает его вывод в траекторию.
Этот метод, известный как политика распространения, ранее был предложен исследователями из Массачусетского технологического института, Колумбийского университета и Исследовательского института Toyota. PoCo основывается на этой политике распространения.
Команда обучает каждую диффузионную модель с помощью набора данных разного типа, например, с видеодемонстрациями людей, а другой — с телеуправлением роботизированной руки.
Затем исследователи выполняют взвешенную комбинацию отдельных политик, изученных всеми моделями распространения, итеративно уточняя результаты, чтобы объединенная политика удовлетворяла целям каждой отдельной политики.
Больше, чем сумма его частей
«Одним из преимуществ этого подхода является то, что мы можем комбинировать политику, чтобы получить лучшее от обоих миров. Например, политика, обученная на реальных данных, могла бы достичь большей гибкости, в то время как политика, обученная на моделировании, могла бы добиться большего обобщения», — говорит Ван.

Изображение: предоставлено исследователями
Поскольку политики обучаются отдельно, можно смешивать и сопоставлять политики распространения для достижения лучших результатов для определенной задачи. Пользователь также может добавлять данные в новой модальности или домене, обучая дополнительную политику распространения с этим набором данных, вместо того, чтобы начинать весь процесс с нуля.

Изображение: предоставлено исследователями
Исследователи протестировали PoCo в моделировании и на реальных роботизированных манипуляторах, которые выполняли различные задачи, такие как забивание гвоздя молотком и переворачивание объекта с помощью шпателя. PoCo привел к улучшению производительности задач на 20 процентов по сравнению с базовыми методами.
«Поразительно то, что когда мы закончили настройку и визуализировали ее, мы ясно увидели, что составленная траектория выглядит намного лучше, чем каждая из них по отдельности», — говорит Ван.
В будущем исследователи хотят применить эту технику к долгосрочным задачам, когда робот будет брать один инструмент, использовать его, а затем переключаться на другой инструмент. Они также хотят использовать более крупные наборы данных по робототехнике для повышения производительности.
«Для успеха робототехники нам понадобятся все три вида данных: данные из Интернета, данные моделирования и данные реальных роботов. Как их эффективно объединить – это вопрос на миллион долларов. PoCo — это уверенный шаг на правильном пути», — говорит Джим Фан, старший научный сотрудник NVIDIA и руководитель AI Agents Initiative, который не участвовал в этой работе.
Это исследование частично финансируется Amazon, Сингапурским агентством оборонной науки и технологий, Национальным научным фондом США и Исследовательским институтом Toyota.