Эмерджентное бартерное поведение в многоагентном обучении с подкреплением | GPTMain News

В нашей недавней статье мы исследуем, как популяции агентов глубокого обучения с подкреплением (глубокого RL) могут изучать микроэкономическое поведение, такое как производство, потребление и торговля товарами. Мы обнаружили, что искусственные агенты учатся принимать экономически рациональные решения о производстве, потреблении и ценах и соответствующим образом реагировать на изменения спроса и предложения. Население склоняется к местным ценам, которые отражают близлежащее изобилие ресурсов, и некоторые агенты учатся перевозить товары между этими областями, чтобы «покупать дешево и продавать дорого». Эта работа продвигает более широкую программу исследований мультиагентного обучения с подкреплением, предлагая агентам новые социальные проблемы, которые они должны научиться решать.

Поскольку цель исследований мультиагентного обучения с подкреплением состоит в том, чтобы в конечном итоге создать агентов, которые будут работать во всем диапазоне и сложности человеческого социального интеллекта, набор рассмотренных до сих пор областей был прискорбно неполным. Ему все еще не хватает важнейших областей, в которых человеческий интеллект превосходит других, и люди тратят значительное количество времени и энергии. Предмет экономики является одной из таких областей. Наша цель в этой работе — создать среду, основанную на темах торговли и переговоров, для использования исследователями в области многоагентного обучения с подкреплением.

Экономика использует агентные модели для моделирования поведения экономики. Эти агентные модели часто основываются на экономических предположениях о том, как агенты должны действовать. В этой работе мы представляем мультиагентный смоделированный мир, в котором агенты могут изучать экономическое поведение с нуля способами, знакомыми любому студенту, изучающему микроэкономику 101: решения о производстве, потреблении и ценах. Но наши агенты также должны делать и другие выборы, вытекающие из более физически воплощенного образа мышления. Они должны ориентироваться в физической среде, находить деревья, чтобы собирать фрукты, и партнеров, с которыми можно ими торговать. Последние достижения в области методов глубокого RL теперь позволяют создавать агентов, которые могут изучать такое поведение самостоятельно, не требуя от программиста кодирования знаний предметной области.

Наша окружающая среда, называемая Фруктовый рынок, — это многопользовательская среда, в которой агенты производят и потребляют два типа фруктов: яблоки и бананы. Каждый агент умеет производить один вид фруктов, но отдает предпочтение другому: если агенты смогут научиться бартеру и обмениваться товарами, обе стороны будут в выигрыше.

В наших экспериментах мы показываем, что нынешние агенты глубокого RL могут научиться торговать, и их поведение в ответ на изменения спроса и предложения соответствует тому, что предсказывает микроэкономическая теория. Затем мы опираемся на эту работу, чтобы представить сценарии, которые было бы очень сложно решить с помощью аналитических моделей, но которые понятны нашим агентам глубокого RL. Например, в средах, где каждый вид фруктов растет в разных районах, мы наблюдаем появление различных ценовых регионов, связанных с местным изобилием фруктов, а также последующее обучение арбитражному поведению некоторыми агентами, которые начинают специализироваться на перевозка фруктов между этими регионами.

В области агентной вычислительной экономики аналогичные модели используются для экономических исследований. В этой работе мы также демонстрируем, что современные методы глубокого RL могут гибко научиться действовать в этих средах на основе собственного опыта, без необходимости использования встроенных экономических знаний. Это подчеркивает недавний прогресс сообщества обучения с подкреплением в нескольких областях. -агентное RL и глубокое RL, а также демонстрирует потенциал мультиагентных методов как инструментов для продвижения исследований в области моделируемой экономики.

В качестве пути к общему искусственному интеллекту (AGI) исследования многоагентного обучения с подкреплением должны охватывать все критические области социального интеллекта. Однако до сих пор она не включала в себя традиционные экономические явления, такие как торговля, торг, специализация, потребление и производство. Данная статья восполняет этот пробел и предоставляет платформу для дальнейших исследований. Чтобы помочь будущим исследованиям в этой области, среда Fruit Market будет включена в следующую версию набора сред Melting Pot.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس