Представьте себе робота, похожего на слизь, который может плавно менять свою форму, чтобы протиснуться в узкие пространства, и которого можно разместить внутри человеческого тела, чтобы удалить ненужный предмет.
Хотя такого робота пока не существует за пределами лаборатории, исследователи работают над разработкой реконфигурируемых мягких роботов для применения в здравоохранении, носимых устройствах и промышленных системах.
Но как можно управлять мягким роботом, у которого нет суставов, конечностей или пальцев, которыми можно манипулировать, а который вместо этого может радикально менять всю свою форму по своему желанию? Исследователи Массачусетского технологического института работают над ответом на этот вопрос.
Они разработали алгоритм управления, который может автономно учиться перемещать, растягивать и формировать реконфигурируемого робота для выполнения конкретной задачи, даже если эта задача требует от робота многократного изменения своей морфологии. Команда также создала симулятор для тестирования алгоритмов управления деформируемыми мягкими роботами при выполнении ряда сложных задач, изменяющих форму.
Их метод выполнил каждую из восьми задач, которые они оценивали, превосходя при этом другие алгоритмы. Особенно хорошо этот метод работал при решении многогранных задач. Например, в одном из испытаний роботу пришлось уменьшить свой рост и отрастить две крошечные ноги, чтобы протиснуться через узкую трубу, а затем отрастить эти ноги и вытянуть туловище, чтобы открыть крышку трубы.
Хотя реконфигурируемые мягкие роботы все еще находятся в зачаточном состоянии, такая технология может когда-нибудь позволить создать роботов общего назначения, которые смогут адаптировать свою форму для выполнения разнообразных задач.
«Когда люди думают о мягких роботах, они склонны думать о роботах, которые эластичны, но возвращаются к своей первоначальной форме. Наш робот похож на слизь и действительно может менять свою морфологию. Очень поразительно, что наш метод сработал так хорошо, потому что мы имеем дело с чем-то совершенно новым», — говорит Боюань Чен, аспирант электротехники и информатики (EECS) и соавтор статьи об этом подходе.
В число соавторов Чена входят ведущий автор Сунин Хуан, студент бакалавриата Университета Цинхуа в Китае, который завершил эту работу, будучи приглашенным студентом Массачусетского технологического института; Хуажэ Сюй, доцент Университета Цинхуа; и старший автор Винсент Зитцманн, доцент кафедры EECS Массачусетского технологического института, возглавляющий группу по представлению сцен в лаборатории компьютерных наук и искусственного интеллекта. Исследование будет представлено на Международной конференции по обучению представлений.
Управление динамическим движением
Ученые часто учат роботов выполнять задачи, используя подход машинного обучения, известный как обучение с подкреплением, который представляет собой процесс проб и ошибок, в котором робот вознаграждается за действия, которые приближают его к цели.
Это может быть эффективно, если движущиеся части робота согласованы и четко определены, как захват с тремя пальцами. При использовании роботизированного захвата алгоритм обучения с подкреплением может слегка двигать одним пальцем, методом проб и ошибок определяя, приносит ли это движение вознаграждение. Затем он переходил к следующему пальцу и так далее.
Но роботы, меняющие форму, управляемые магнитными полями, могут динамически сжимать, сгибать или удлинять все свои тела.

Изображение: предоставлено исследователями
«Такой робот может иметь тысячи маленьких кусочков мышц, которыми нужно управлять, поэтому его очень сложно обучить традиционным способом», — говорит Чен.
Чтобы решить эту проблему, ему и его сотрудникам пришлось подумать о ней по-другому. Вместо того, чтобы двигать каждую крошечную мышцу по отдельности, их алгоритм обучения с подкреплением начинается с обучения управлению группами соседних мышц, которые работают вместе.
Затем, после того как алгоритм исследовал пространство возможных действий, сосредоточив внимание на группах мышц, он углубляется в более мелкие детали, чтобы оптимизировать политику или план действий, которые он изучил. Таким образом, алгоритм управления следует методологии от грубого к точному.
«От грубого до мелкого означает, что когда вы предпринимаете случайное действие, это случайное действие, скорее всего, будет иметь значение. Изменение результата, вероятно, будет очень значительным, поскольку вы грубо контролируете несколько мышц одновременно», — говорит Зитцманн.
Чтобы сделать это возможным, исследователи рассматривают пространство действий робота, то есть то, как он может перемещаться в определенной области, как изображение.
Их модель машинного обучения использует изображения окружающей среды робота для создания 2D-пространства действий, которое включает робота и область вокруг него. Они моделируют движение робота, используя так называемый метод материальных точек, при котором пространство действия покрывается точками, такими как пиксели изображения, и накладывается на сетку.
Точно так же, как связаны близлежащие пиксели на изображении (например, пиксели, образующие дерево на фотографии), они построили свой алгоритм, чтобы понять, что близлежащие точки действия имеют более сильную корреляцию. Точки вокруг «плеча» робота будут двигаться аналогично, когда он меняет форму, а точки на «ноге» робота также будут двигаться аналогично, но иначе, чем на «плече».
Кроме того, исследователи используют ту же модель машинного обучения, чтобы изучать окружающую среду и прогнозировать действия, которые должен предпринять робот, что делает его более эффективным.
Создание симулятора
После разработки этого подхода исследователям понадобился способ его протестировать, поэтому они создали среду моделирования под названием DittoGym.
DittoGym предлагает восемь заданий, которые оценивают способность реконфигурируемого робота динамически менять форму. В одном робот должен удлинить и изогнуть свое тело, чтобы он мог обходить препятствия и достигать целевой точки. В другом случае он должен изменить свою форму, чтобы имитировать буквы алфавита.

Изображение: предоставлено исследователями
«Наш выбор задач в DittoGym соответствует как общим принципам проектирования эталонного обучения с подкреплением, так и конкретным потребностям реконфигурируемых роботов. Каждая задача предназначена для представления определенных свойств, которые мы считаем важными, таких как способность ориентироваться в долгосрочных исследованиях, способность анализировать окружающую среду и взаимодействовать с внешними объектами», — говорит Хуанг. «Мы считаем, что вместе они могут дать пользователям полное понимание гибкости реконфигурируемых роботов и эффективности нашей схемы обучения с подкреплением».
Их алгоритм превосходил базовые методы и был единственным методом, подходящим для выполнения многоэтапных задач, требующих нескольких изменений формы.
«У нас более сильная корреляция между точками действия, которые расположены ближе друг к другу, и я думаю, что это ключ к тому, чтобы эта работа работала так хорошо», — говорит Чен.
Хотя может пройти много лет, прежде чем роботы, меняющие форму, будут развернуты в реальном мире, Чен и его сотрудники надеются, что их работа вдохновит других ученых не только на изучение реконфигурируемых мягких роботов, но и на размышления об использовании двумерных пространств действия для других сложных задач управления.