Новый метод использует краудсорсинговую обратную связь для обучения роботов | Новости Массачусетского технологического института | GPTMain News

Чтобы научить агента ИИ новой задаче, например, как открыть кухонный шкаф, исследователи часто используют обучение с подкреплением — процесс проб и ошибок, в котором агент вознаграждается за действия, приближающие его к цели.

Во многих случаях человек-эксперт должен тщательно разработать функцию вознаграждения, которая представляет собой механизм стимулирования, который дает агенту мотивацию к исследованию. Человек-эксперт должен итеративно обновлять эту функцию вознаграждения по мере того, как агент исследует и пробует различные действия. Это может занять много времени, быть неэффективным и трудным для масштабирования, особенно если задача сложна и включает в себя множество шагов.

Исследователи из Массачусетского технологического института, Гарвардского университета и Вашингтонского университета разработали новый подход к обучению с подкреплением, который не опирается на специально разработанную функцию вознаграждения. Вместо этого он использует краудсорсинговую обратную связь, полученную от многих неопытных пользователей, чтобы направлять агента по мере того, как он учится достигать своей цели.

Хотя некоторые другие методы также пытаются использовать обратную связь от неэкспертов, этот новый подход позволяет агенту ИИ учиться быстрее, несмотря на то, что данные, полученные от пользователей, часто полны ошибок. Эти зашумленные данные могут привести к сбою других методов.

Кроме того, этот новый подход позволяет собирать обратную связь асинхронно, поэтому неопытные пользователи по всему миру могут участвовать в обучении агента.

«Одной из самых трудоемких и сложных задач в разработке роботизированного агента сегодня является разработка функции вознаграждения. Сегодня функции вознаграждения разрабатываются опытными исследователями — эта парадигма не поддается масштабированию, если мы хотим научить наших роботов множеству различных задач. Наша работа предлагает способ масштабирования обучения роботов путем краудсорсинга разработки функции вознаграждения и предоставления возможности неспециалистам предоставлять полезную обратную связь», — говорит Пулкит Агравал, доцент кафедры электротехники и компьютерных наук Массачусетского технологического института (EECS), который возглавляет лабораторию невероятного искусственного интеллекта в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL).

В будущем этот метод может помочь роботу быстро научиться выполнять определенные задачи в доме пользователя, без необходимости показывать роботу физические примеры каждой задачи. Робот мог бы исследовать самостоятельно, используя обратную связь от неспециалистов, направляющую его исследование.

«В нашем методе функция вознаграждения направляет агента к тому, что ему следует изучить, вместо того, чтобы точно сообщать ему, что он должен сделать для выполнения задачи. Таким образом, даже если контроль со стороны человека несколько неточный и шумный, агент все равно способен исследовать, что помогает ему учиться намного лучше», — объясняет ведущий автор Марсель Торн ’23, научный сотрудник лаборатории невероятного искусственного интеллекта.

К Торну в работе присоединяется его советник из Массачусетского технологического института Агравал; старший автор Абхишек Гупта, доцент Вашингтонского университета; а также другие сотрудники Вашингтонского университета и Массачусетского технологического института. Исследование будет представлено на конференции по нейронным системам обработки информации в следующем месяце.

Шумная обратная связь

Один из способов сбора отзывов пользователей для обучения с подкреплением — показать пользователю две фотографии состояний, достигнутых агентом, а затем спросить этого пользователя, какое состояние ближе к цели. Например, возможно, цель робота — открыть кухонный шкаф. На одном изображении может быть показано, что робот открыл шкаф, а на втором — что он открыл микроволновую печь. Пользователь выбирал фотографию «лучшего» состояния.

Некоторые предыдущие подходы пытались использовать эту краудсорсинговую бинарную обратную связь для оптимизации функции вознаграждения, которую агент будет использовать для изучения задачи. Однако, поскольку неспециалисты склонны совершать ошибки, функция вознаграждения может стать очень шумной, поэтому агент может застрять и никогда не достичь своей цели.

«По сути, агент слишком серьезно отнесся к функции вознаграждения. Он постарается идеально соответствовать функции вознаграждения. Таким образом, вместо того, чтобы напрямую оптимизировать функцию вознаграждения, мы просто используем ее, чтобы сообщить роботу, какие области ему следует исследовать», — говорит Торн.

Он и его коллеги разделили процесс на две отдельные части, каждая из которых управляется собственным алгоритмом. Они называют свой новый метод обучения с подкреплением HuGE (Human Guided Exploration).

С одной стороны, алгоритм выбора цели постоянно обновляется с учетом отзывов людей, полученных от краудсорсинга. Обратная связь используется не в качестве функции вознаграждения, а скорее для руководства исследованием агента. В каком-то смысле неопытные пользователи бросают хлебные крошки, которые постепенно ведут агента к цели.

С другой стороны, агент исследует самостоятельно, под самоконтролем под руководством селектора целей. Он собирает изображения или видео действий, которые он пытается выполнить, которые затем отправляются людям и используются для обновления селектора целей.

Это сужает область исследования агента и приводит его к более перспективным областям, которые ближе к его цели. Но если обратной связи нет или для получения обратной связи требуется некоторое время, агент продолжит обучение самостоятельно, хотя и медленнее. Это позволяет собирать обратную связь нечасто и асинхронно.

«Цикл исследования может продолжаться автономно, потому что он будет просто исследовать и изучать новые вещи. А затем, когда вы получите более качественный сигнал, он начнет исследовать более конкретные пути. Вы можете просто заставить их двигаться в своем темпе», — добавляет Торн.

А поскольку обратная связь лишь мягко направляет поведение агента, в конечном итоге он научится выполнять задачу, даже если пользователи дают неправильные ответы.

Более быстрое обучение

Исследователи протестировали этот метод на ряде смоделированных и реальных задач. В симуляции они использовали HuGE для эффективного изучения задач с длинными последовательностями действий, таких как укладка блоков в определенном порядке или навигация по большому лабиринту.

В реальных испытаниях они использовали HuGE для обучения роботизированных рук рисованию буквы «U», а также выбору и размещению объектов. Для этих тестов они собрали данные от 109 пользователей-неспециалистов из 13 разных стран на трех континентах.

В реальных и смоделированных экспериментах HuGE помог агентам научиться достигать цели быстрее, чем другие методы.

Исследователи также обнаружили, что данные, полученные от неспециалистов, дали более высокую эффективность, чем синтетические данные, которые были созданы и маркированы исследователями. Для неопытных пользователей маркировка 30 изображений или видео заняла менее двух минут.

«Это делает его очень многообещающим с точки зрения возможности масштабирования этого метода», — добавляет Торн.

В соответствующей статье, которую исследователи представили на недавней конференции по обучению роботов, они усовершенствовали HuGE, чтобы ИИ-агент мог научиться выполнять задачу, а затем автономно перезагружать среду для продолжения обучения. Например, если агент учится открывать шкаф, метод также помогает агенту закрыть шкаф.

«Теперь мы можем заставить его обучаться полностью автономно, без необходимости перезагрузки вручную», — говорит он.

Исследователи также подчеркивают, что в этом и других подходах к обучению крайне важно обеспечить соответствие агентов ИИ человеческим ценностям.

В будущем они хотят продолжить совершенствование HuGE, чтобы агент мог учиться на других формах общения, таких как естественный язык и физическое взаимодействие с роботом. Они также заинтересованы в применении этого метода для одновременного обучения нескольких агентов.

Это исследование частично финансируется лабораторией MIT-IBM Watson AI Lab.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس