Более эффективный способ обучения машин для неопределенных реальных ситуаций | GPTMain News

Тот, кто учится играть в теннис, может нанять учителя, чтобы тот помог ему быстрее научиться. Поскольку этот учитель (надеемся) является великим теннисистом, бывают случаи, когда попытка в точности подражать учителю не поможет ученику. Возможно, учитель подпрыгивает высоко в воздух, чтобы ловко выполнить ответный удар. Ученик, не имея возможности повторить это, может попробовать несколько других движений самостоятельно, пока не овладеет навыками, необходимыми для ответного удара.

Компьютерные ученые также могут использовать системы-“учителя” для обучения другой машины выполнению задачи. Но, как и при обучении человека, машина-студент сталкивается с дилеммой: когда следовать за учителем, а когда исследовать самостоятельно. Для этого исследователи из Массачусетского технологического института и Техниона, Израильского технологического института, разработали алгоритм, который автоматически и независимо определяет, когда ученик должен подражать учителю (так называемое имитационное обучение), а когда ему следует учиться методом проб и ошибок (так называемое обучение с подкреплением).

Их динамический подход позволяет ученику отклоняться от копирования учителя, когда учитель либо слишком хорош, либо недостаточно хорош, но затем возвращаться к подражанию учителю на более поздних этапах процесса обучения, если это позволяет достичь лучших результатов и ускорить процесс обучения.

Когда исследователи проверили этот подход на симуляторах, они обнаружили, что сочетание обучения методом проб и ошибок и подражания позволяет учащимся осваивать задачи более эффективно, чем методы, использующие только один тип обучения.

Этот метод может помочь исследователям улучшить процесс обучения машин, которые будут использоваться в неопределенных реальных ситуациях, например, робот, обучаемый ориентироваться в здании, которое он никогда раньше не видел.

“Это сочетание обучения методом проб и ошибок и следования за учителем является очень мощным. Оно дает нашему алгоритму возможность решать очень сложные задачи, которые невозможно решить, используя любую из этих методик по отдельности”, – говорит Идан Шенфельд, аспирант кафедры электротехники и информатики (EECS) и ведущий автор статьи об этой методике.

Шенфельд написал статью в соавторстве с Чжан-Вэй Хонгом, аспирантом EECS, Авивом Тамаром, доцентом электротехники и информатики в Технионе, и старшим автором Пулкитом Агравалом, директором Improbable AI Lab и доцентом лаборатории компьютерных наук и искусственного интеллекта. Исследование будет представлено на Международной конференции по машинному обучению.

Соблюдение баланса

Многие существующие методы, которые пытаются найти баланс между имитационным обучением и обучением с подкреплением, делают это методом проб и ошибок. Исследователи выбирают взвешенную комбинацию двух методов обучения, выполняют всю процедуру обучения, а затем повторяют процесс, пока не найдут оптимальный баланс. Это неэффективно и часто настолько затратно с точки зрения вычислений, что даже нецелесообразно.

“Мы хотим, чтобы алгоритмы были принципиальными, включали в себя настройку как можно меньшего количества ручек и достигали высокой производительности – эти принципы лежали в основе наших исследований”, – говорит Агравал.

Чтобы добиться этого, команда подошла к проблеме иначе, чем в предыдущих работах. Их решение предполагает обучение двух студентов: одного с помощью взвешенной комбинации обучения с подкреплением и имитационного обучения, а второго, который может использовать только обучение с подкреплением для изучения той же задачи.

Основная идея заключается в автоматическом и динамическом изменении веса целей обучения с подкреплением и имитационного обучения первого ученика. Здесь в игру вступает второй ученик. Алгоритм исследователей постоянно сравнивает двух учеников. Если у того, кто использует учителя, дела идут лучше, алгоритм придает больше веса имитационному обучению для тренировки ученика, но если тот, кто использует только метод проб и ошибок, начинает получать лучшие результаты, он будет больше внимания уделять обучению с помощью подкрепления.

Динамически определяя, какой метод дает лучшие результаты, алгоритм является адаптивным и может выбирать лучшую технику на протяжении всего процесса обучения. Благодаря этой инновации он способен более эффективно обучать студентов, чем другие методы, которые не являются адаптивными, говорит Шенфельд.

“Одна из главных трудностей при разработке этого алгоритма заключалась в том, что нам потребовалось некоторое время, чтобы понять, что мы не должны обучать двух студентов независимо друг от друга. Стало ясно, что нам нужно связать агентов, чтобы они обменивались информацией, а затем найти правильный способ технически обосновать эту интуицию”, – говорит Шенфельд.

Решение сложных проблем

Для проверки своего подхода исследователи поставили множество имитационных учебных экспериментов между учителем и учеником, таких как прохождение через лабиринт из лавы, чтобы добраться до другого угла сетки. В этом случае учитель имеет карту всей сетки, а ученик видит только участок перед ним. Их алгоритм достиг почти идеального показателя успешности во всех тестовых средах и оказался намного быстрее других методов.

Чтобы подвергнуть алгоритм еще более сложному испытанию, они создали симуляцию с участием роботизированной руки с сенсорными датчиками, но без зрения, которая должна переориентировать ручку в правильную позу. Учитель имел доступ к фактической ориентации ручки, в то время как ученик мог использовать только сенсорные датчики для определения ориентации ручки.

Их метод превзошел другие, которые использовали либо только имитационное обучение, либо только обучение с подкреплением.

Переориентация объектов – одна из многих манипуляционных задач, которые должен будет выполнять будущий домашний робот, над чем и работает лаборатория Improbable AI, добавляет Агравал.

Метод обучения “учитель-ученик” успешно применяется для обучения роботов сложным манипуляциям с объектами и локомоции в симуляции и последующего переноса полученных навыков в реальный мир. В этих методах учитель обладает привилегированной информацией, доступной в симуляции, которой не будет у ученика, когда он будет работать в реальном мире. Например, учитель будет знать подробную карту здания, по которой робот-студент обучается ориентироваться, используя только изображения, полученные его камерой.

“Существующие методы обучения робототехнике с участием ученика и учителя не учитывают неспособность ученика подражать учителю и, таким образом, ограничивают производительность. Новый метод открывает путь к созданию более совершенных роботов”, – говорит Агравал.

Помимо создания более совершенных роботов, исследователи считают, что их алгоритм способен улучшить производительность в различных приложениях, где используется имитация или обучение с подкреплением. Например, большие языковые модели, такие как GPT-4, очень хорошо справляются с широким спектром задач, поэтому, возможно, можно использовать большую модель в качестве учителя для обучения меньшей, студенческой модели, чтобы она стала еще “лучше” справляться с одной конкретной задачей. Еще одним интересным направлением является изучение сходств и различий между машинами и людьми, обучающимися у своих учителей. Такой анализ может помочь улучшить процесс обучения, говорят исследователи.

“Что интересно в этом подходе по сравнению с другими методами, так это его устойчивость к различным вариантам выбора параметров и разнообразие областей, в которых он показывает многообещающие результаты”, – говорит Абхишек Гупта, доцент Вашингтонского университета, который не принимал участия в этой работе. “Хотя текущий набор результатов в основном относится к моделированию, я очень рад будущим возможностям применения этой работы к проблемам, связанным с памятью и рассуждениями с использованием различных модальностей, таких как тактильное восприятие”.

“В этой работе представлен интересный подход к повторному использованию предыдущей вычислительной работы в обучении с подкреплением. В частности, предложенный ими метод может использовать субоптимальную политику учителя в качестве руководства, избегая при этом тщательного планирования гиперпараметров, которое требовалось в предыдущих методах для балансировки целей подражания учителю и оптимизации вознаграждения за выполнение задачи”, – добавляет Ришабх Агарвал, старший научный сотрудник Google Brain, который также не принимал участия в этом исследовании. “Надеюсь, эта работа сделает реинкарнацию обучения с подкреплением и выученными правилами менее обременительной”.

Это исследование было частично поддержано лабораторией GPTMain-IBM Watson AI Lab, Hyundai Motor Company, программой DARPA Machine Common Sense Program и Управлением военно-морских исследований.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس