Ложная нормативность способствует обучению соблюдению и принудительному поведению искусственных агентов. | GPTMain News

В наша недавняя статья мы исследуем, как многоагентное глубокое обучение с подкреплением может служить моделью сложных социальных взаимодействий, таких как формирование социальных норм. Этот новый класс моделей может обеспечить путь к созданию более богатых и подробных симуляций мира.

Люди — ультрасоциальный вид. По сравнению с другими млекопитающими мы больше выигрываем от сотрудничества, но мы также больше зависим от него и сталкиваемся с более серьезными проблемами сотрудничества. Сегодня человечество сталкивается с многочисленными проблемами сотрудничества, включая предотвращение конфликтов из-за ресурсов, обеспечение доступа каждого к чистому воздуху и питьевой воде, искоренение крайней нищеты и борьбу с изменением климата. Многие из проблем сотрудничества, с которыми мы сталкиваемся, трудно решить, потому что они включают в себя сложные сети социальных и биофизических взаимодействий, называемые социально-экологическими системами. Однако люди могут коллективно научиться преодолевать проблемы сотрудничества, с которыми мы сталкиваемся. Мы достигаем этого благодаря постоянно развивающейся культуре, включая нормы и институты, которые организуют наше взаимодействие с окружающей средой и друг с другом.

Однако нормы и институты иногда не решают проблемы сотрудничества. Например, люди могут чрезмерно эксплуатировать такие ресурсы, как леса и рыболовство, что приводит к их краху. В таких случаях лица, определяющие политику, могут писать законы для изменения институциональных правил или разрабатывать другие меры, чтобы попытаться изменить нормы в надежде добиться положительных изменений. Но политические вмешательства не всегда работают так, как предполагалось. Это связано с тем, что социально-экологические системы реального мира значительно сложнее, чем модели, которые мы обычно используем, пытаясь предсказать последствия политики-кандидата.

Модели, основанные на теории игр, часто применяются для изучения культурной эволюции. В большинстве этих моделей ключевые взаимодействия агентов друг с другом выражаются в «матрице выплат». В игре с двумя участниками и двумя действиями A и B матрица выигрышей определяет значение четырех возможных исходов: (1) мы оба выбираем A, (2) мы оба выбираем B, (3) я выбираю A, а вы выбираете B и (4) я выбираю B, а вы выбираете A. Самый известный пример — «дилемма заключенного», в которой действия интерпретируются как «сотрудничать» и «предать». Рациональные агенты, которые действуют в соответствии со своими близорукими интересами, обречены на отступничество в дилемме заключенного, даже если возможен лучший исход взаимного сотрудничества.

Теоретико-игровые модели нашли очень широкое применение. Исследователи в различных областях использовали их для изучения широкого круга различных явлений, включая экономику и эволюцию человеческой культуры. Однако теория игр — это не нейтральный инструмент, а скорее язык моделирования, основанный на глубоком мнении. Он налагает строгое требование, чтобы все в конечном итоге обналичивалось с точки зрения матрицы выплат (или эквивалентного представления). Это означает, что разработчик модели должен знать или быть готовым предположить все о том, как эффекты отдельных действий объединяются для создания стимулов. Иногда это уместно, и теоретико-игровой подход добился многих заметных успехов, например, в моделировании поведения олигополистических фирм и международных отношений эпохи холодной войны. Однако основная слабость теории игр как языка моделирования проявляется в ситуациях, когда разработчик моделей не полностью понимает, как выбор людей комбинируется для получения выигрыша. К сожалению, это чаще всего происходит с социально-экологическими системами, потому что их социальная и экологическая части взаимодействуют сложным образом, который мы не до конца понимаем.

Работа, которую мы представляем здесь, является одним из примеров в рамках исследовательской программы, которая пытается создать альтернативную структуру моделирования, отличную от теории игр, для использования в изучении социально-экологических систем. Наш подход формально можно рассматривать как разновидность агентного моделирования. Однако его отличительной чертой является включение алгоритмических элементов искусственного интеллекта, особенно многоагентного глубокого обучения с подкреплением.

Основная идея этого подхода заключается в том, что каждая модель состоит из двух взаимосвязанных частей: (1) богатой динамической модели среды и (2) модели индивидуального принятия решений.

Первый принимает форму разработанного исследователем симулятора: интерактивная программа, которая принимает текущее состояние среды и действия агентов и выводит следующее состояние среды, а также наблюдения за всеми агентами и их мгновенные вознаграждения. Модель индивидуального принятия решений также обусловлена ​​состоянием окружающей среды. Это агент которая учится на своем прошлом опыте методом проб и ошибок. Агент взаимодействует с окружающей средой, получая наблюдения и производя действия. Каждый агент выбирает действия в соответствии со своей поведенческой политикой, отображением наблюдений в действия. Агенты учатся, изменяя свою политику, чтобы улучшить ее в любом желаемом измерении, обычно для получения большего вознаграждения. Политика хранится в нейронной сети. Агенты узнают «с нуля», на собственном опыте, как устроен мир и что они могут сделать, чтобы заработать больше вознаграждений. Они достигают этого, настраивая свои сетевые веса таким образом, чтобы пиксели, которые они получают в качестве наблюдений, постепенно трансформировались в компетентные действия. Несколько агентов обучения могут обитать в одной и той же среде друг с другом. В этом случае агенты становятся взаимозависимыми, поскольку их действия влияют друг на друга.

Как и другие подходы к моделированию на основе агентов, многоагентное глубокое обучение с подкреплением позволяет легко определять модели, пересекающие уровни анализа, которые было бы трудно обработать с помощью теории игр. Например, действия могут быть гораздо ближе к низкоуровневым двигательным примитивам (например, «идти вперед»; «повернуть направо»), чем к высокоуровневым стратегическим решениям теории игр (например, «сотрудничать»). Это важная функция, необходимая для захвата ситуаций, в которых агенты должны практиковаться, чтобы эффективно научиться реализовывать свой стратегический выбор. Например, в одном исследовании агенты научились сотрудничать, по очереди очищая реку. Это решение было возможно только потому, что среда имеет пространственное и временное измерения, в которых агенты имеют большую свободу в том, как они структурируют свое поведение по отношению друг к другу. Интересно, что в то время как окружающая среда допускала множество различных решений (например, территориальность), агенты сошлись на том же поочередном решении, что и игроки-люди.

В нашем последнем исследовании мы применили этот тип модели к открытому вопросу в исследованиях культурной эволюции: как объяснить существование ложных и произвольных социальных норм, которые, по-видимому, не имеют немедленных материальных последствий за их нарушение, помимо тех, которые навязываются обществом. Например, в некоторых обществах мужчины должны носить брюки, а не юбки; во многих есть слова или жесты рук, которые не следует употреблять в вежливой компании; и в большинстве есть правила о том, как укладывать волосы или что носить на голове. Мы называем эти социальные нормы «глупыми правилами». Важно отметить, что в нашей структуре нужно учиться как обеспечению соблюдения социальных норм, так и их соблюдению. Наличие социальной среды, включающей «глупое правило», означает, что агенты имеют больше возможностей узнать о соблюдении норм в целом. Эта дополнительная практика позволяет им более эффективно применять важные правила. В целом, «глупое правило» может принести пользу населению – неожиданный результат. Такой результат возможен только потому, что наша симуляция направлена ​​на обучение: обеспечение соблюдения правил и их соблюдение — это сложные навыки, для развития которых требуется тренировка.

Мы находим этот результат по глупым правилам таким захватывающим отчасти потому, что он демонстрирует полезность многоагентного глубокого обучения с подкреплением в моделировании культурной эволюции. Культура способствует успеху или провалу политического вмешательства в социально-экологические системы. Например, укрепление социальных норм в отношении вторичной переработки является частью решения некоторых экологических проблем. Следуя этой траектории, более богатые модели могут привести к более глубокому пониманию того, как разрабатывать меры для социально-экологических систем. Если моделирование станет достаточно реалистичным, можно будет даже проверить влияние вмешательств, например, с целью разработки налогового кодекса, который способствует производительности и справедливости.

Этот подход предоставляет исследователям инструменты для определения подробных моделей интересующих их явлений. Конечно, как и у всех исследовательских методологий, у нее есть свои сильные и слабые стороны. Мы надеемся узнать больше о том, когда этот стиль моделирования может быть плодотворно применен в будущем. Хотя для моделирования не существует панацеи, мы думаем, что есть веские причины обращаться к многоагентному глубокому обучению с подкреплением при построении моделей социальных явлений, особенно когда они связаны с обучением.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس