Имитация интерактивного интеллекта | GPTMain News

В начале любого исследования искусственного интеллекта необходимо ответить на два вопроса. Что мы хотим, чтобы системы ИИ делали? И как мы будем оценивать, когда мы продвигаемся к этой цели? Алан Тьюринг в своей основополагающей статье, описывающей тест Тьюринга, который он более скромно назвал игрой в имитацию, утверждал, что для определенного вида ИИ эти вопросы могут быть одними и теми же. Грубо говоря, если поведение ИИ напоминает человеческий интеллект, когда человек взаимодействует с ним, то ИИ прошел тест и может быть назван разумным. ИИ, предназначенный для взаимодействия с людьми, следует тестировать посредством взаимодействия с людьми.

В то же время взаимодействие — это не только проверка интеллекта, но и смысл. Чтобы агенты ИИ были в целом полезными, они должны помогать нам в различных действиях и общаться с нами естественным образом. В научной фантастике видение роботов, с которыми мы можем говорить, является обычным явлением. И интеллектуальные цифровые агенты, которые могут помочь выполнить большое количество задач, были бы в высшей степени полезными. Поэтому, чтобы воплотить эти устройства в жизнь, мы должны изучить проблему создания агентов, способных эффективно взаимодействовать с людьми и производить действия в богатом мире.

Создание агентов, которые могут взаимодействовать с людьми и миром, ставит ряд важных задач. Как мы можем предоставить соответствующие обучающие сигналы, чтобы научить искусственных агентов таким способностям? Как мы можем оценить эффективность разрабатываемых нами агентов, если сам язык неоднозначен и абстрактен? Так же, как аэродинамическая труба связана с конструкцией самолета, мы создали виртуальную среду для исследования способов создания взаимодействующих агентов.

Сначала мы создаем симулированную среду, игровую комнату, в которой виртуальные роботы могут участвовать во множестве интересных взаимодействий, перемещаясь, манипулируя объектами и разговаривая друг с другом. Размеры игровой комнаты могут быть случайными, как и расположение полок, мебели, ориентиров, таких как окна и двери, а также ассортимент детских игрушек и предметов домашнего обихода. Разнообразие окружающей среды позволяет взаимодействиям, включающим рассуждения о пространстве и объектных отношениях, двусмысленность ссылок, сдерживание, построение, поддержку, окклюзию, частичную наблюдаемость. Мы встроили двух агентов в игровую комнату, чтобы обеспечить социальное измерение для изучения совместной интенциональности, сотрудничества, передачи личных знаний и так далее.

Агенты взаимодействуют в игровой комнате. Синий агент приказывает желтому агенту «положить вертолет в коробку».
Конфигурация игровой комнаты рандомизирована для создания разнообразия при сборе данных.

Мы используем ряд парадигм обучения для создания агентов, которые могут взаимодействовать с людьми, включая имитационное обучение, обучение с подкреплением, контролируемое и неконтролируемое обучение. Как, возможно, и предполагал Тьюринг, называя «игрой в имитацию», возможно, самый прямой путь к созданию агентов, способных взаимодействовать с людьми, лежит через имитацию человеческого поведения. Большие наборы данных о человеческом поведении вместе с алгоритмами имитации обучения на основе этих данных сыграли важную роль в создании агентов, которые могут взаимодействовать с текстовым языком или играть в игры. Для основанных языковых взаимодействий у нас нет легкодоступного, ранее существовавшего источника данных о поведении, поэтому мы создали систему для выявления взаимодействий между участниками-людьми, взаимодействующими друг с другом. Эти взаимодействия были вызваны, прежде всего, побуждением одного из игроков с подсказкой импровизировать инструкцию, например, «Попросите другого игрока расположить что-то относительно чего-то другого». Некоторые интерактивные подсказки включают в себя вопросы, а также инструкции, например «Попросите другого игрока описать, где что-то находится». В общей сложности мы собрали больше года человеческих взаимодействий в реальном времени в этом сеттинге.

Каждый из наших агентов потребляет изображения и язык в качестве входных данных и производит физические и языковые действия в качестве выходных данных. Мы построили модели вознаграждения с теми же входными параметрами.
Слева: в течение двух минут два игрока (устанавливающий и решающий) двигаются, оглядываются, берут и бросают предметы и говорят. Справа: связующему предлагается «Попросить другого игрока что-нибудь поднять». Сеттер инструктирует агента решателя «Поднять плоскость, которая находится перед обеденным столом». Агент решателя находит правильный объект и выполняет задачу.

Имитационное обучение, обучение с подкреплением и вспомогательное обучение (состоящее из контролируемого и неконтролируемого репрезентативного обучения) интегрированы в форму интерактивной игры с самим собой, которая имеет решающее значение для создания наших лучших агентов. Такие агенты могут выполнять команды и отвечать на вопросы. Мы называем этих агентов «решателями». Но наши агенты также могут давать команды и задавать вопросы. Мы называем таких агентов «сеттерами». Сеттеры в интерактивном режиме ставят задачи перед решателями, чтобы получить лучшие решатели. Однако после обучения агентов люди могут играть роль сеттеров и взаимодействовать с агентами-решателями.

На человеческих демонстрациях мы обучаем политикам, используя комбинацию контролируемого обучения (поведенческого клонирования), обратного RL для вывода моделей вознаграждения и прямого RL для оптимизации политик с использованием предполагаемой модели вознаграждения. Мы используем полуконтролируемые вспомогательные задачи, чтобы помочь сформировать представление как о политике, так и о модели вознаграждения.
Агент-сеттер просит агента-решателя: «Возьми белого робота и положи его на кровать». Агент решателя находит робота и выполняет задачу. Функция вознаграждения, извлеченная из демонстраций, фиксирует ключевые аспекты задачи (синий цвет) и дает меньше вознаграждения (серый цвет), когда те же наблюдения сочетаются с контрфактической инструкцией: «Возьми красного робота и положи его на кровать».

Наши взаимодействия не могут быть оценены так же, как большинство простых задач обучения с подкреплением. Например, нет понятия победы или поражения. Действительно, общение с помощью языка при совместном использовании физической среды вводит удивительное количество абстрактных и неоднозначных понятий. Например, если сеттер просит решатель поместить что-то рядом с чем-то еще, что именно «рядом»? Но точная оценка обученных моделей в стандартизированных условиях — это стержень современного машинного обучения и искусственного интеллекта. Чтобы справиться с этой настройкой, мы разработали различные методы оценки, помогающие диагностировать проблемы и оценивать агентов, включая простое взаимодействие людей с агентами в крупных испытаниях.

Люди оценивали эффективность агентов и других людей при выполнении инструкций в игровой комнате как по выполнению инструкций, так и по задачам с ответами на вопросы. Случайно инициализированные агенты были успешными примерно в 0% случаев. Агент, обученный только контролируемому поведенческому клонированию (B), работал несколько лучше, примерно в 10-20% случаев. Агенты, обученные вспомогательным задачам с частичным наблюдением (B·A), также показали лучшие результаты. Те, кто обучался с контролируемым, полуконтролируемым обучением и обучением с подкреплением с использованием интерактивной самостоятельной игры, были признаны лучшими (BG·A и BGR·A).

Отличительным преимуществом нашей настройки является то, что люди-операторы могут ставить практически бесконечный набор новых задач с помощью языка и быстро понимать компетенции наших агентов. Есть много задач, с которыми они не справляются, но наш подход к созданию ИИ предлагает четкий путь для улучшения в растущем наборе компетенций. Наши методы являются общими и могут применяться везде, где нам нужны агенты, взаимодействующие со сложными средами и людьми.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس