Исследовать
Агенты лучше сотрудничают, общаясь и ведя переговоры, а санкции за невыполнение обещаний помогают им сохранять честность.
Успешная коммуникация и сотрудничество имели решающее значение для содействия прогрессу общества на протяжении всей истории. Закрытая среда настольных игр может служить песочницей для моделирования и исследования взаимодействия и общения – и мы можем многому научиться, играя в них. В нашей недавней статье, опубликованной сегодня в журнале Nature Communications, мы показываем, как искусственные агенты могут использовать общение для лучшего сотрудничества в настольной игре «Дипломатия», динамичной области исследований искусственного интеллекта (ИИ), известной своей направленностью на создание альянсов.
Дипломатия сложна, поскольку имеет простые правила, но высокую сложность из-за сильной взаимозависимости между игроками и огромного пространства действий. Чтобы помочь решить эту проблему, мы разработали алгоритмы переговоров, которые позволяют агентам общаться и согласовывать совместные планы, что позволяет им преодолевать агентов, лишенных этой способности.
Сотрудничество становится особенно сложной задачей, когда мы не можем рассчитывать на то, что наши коллеги сделают то, что они обещают. Мы используем «Дипломатию» как «песочницу», чтобы выяснить, что происходит, когда агенты могут отклониться от своих прошлых соглашений. Наше исследование иллюстрирует риски, которые возникают, когда сложные агенты способны искажать свои намерения или вводить других в заблуждение относительно своих планов на будущее, что приводит к еще одному важному вопросу: каковы условия, которые способствуют доверительному общению и командной работе?
Мы показываем, что стратегия наказания коллег, нарушающих контракты, резко снижает преимущества, которые они могут получить, отказавшись от своих обязательств, тем самым способствуя более честному общению.
Что такое дипломатия и почему она важна?
Такие игры, как шахматы, покер, го и многие видеоигры, всегда были благодатной почвой для исследований ИИ. «Дипломатия» — это игра для семи игроков, в которой участвуют переговоры и формирование альянсов, разыгрываемая на старой карте Европы, разделенной на провинции, где каждый игрок контролирует несколько юнитов (правила дипломатии). В стандартной версии игры, называемой Пресс-дипломатия, каждый ход включает фазу переговоров, после которой все игроки одновременно раскрывают выбранные ими ходы.
Сердцем дипломатии является фаза переговоров, на которой игроки пытаются договориться о своих следующих действиях. Например, один отряд может поддерживать другой отряд, позволяя ему преодолевать сопротивление других отрядов, как показано здесь:
Два сценария движения.
Левый: два подразделения (красное в Бургундии и синее в Гаскони) пытаются двинуться в Париж. Поскольку отряды имеют одинаковую силу, ни один из них не добьется успеха.
Верно: Красный отряд в Пикардии поддерживает красный отряд в Бургундии, подавляя отряд Синего и позволяя красному отряду проникнуть в Бургундию.
Вычислительные подходы к дипломатии исследуются с 1980-х годов, многие из которых были исследованы на более простой версии игры под названием «Дипломатия без прессы», где стратегическое общение между игроками не допускается. Исследователи также предложили удобные для использования компьютером протоколы переговоров, иногда называемые «ограниченной прессой».
Что мы изучали?
Мы используем дипломатию как аналог реальных переговоров, предоставляя агентам ИИ методы координации своих действий. Мы берем наших необщающихся агентов Дипломатии и расширяем их возможности играть в Дипломатию с общением, давая им протокол для заключения контрактов для совместного плана действий. Мы называем этих дополненных агентов базовыми переговорщиками, и они связаны своими соглашениями.
Дипломатические контракты.
Левый: ограничение, позволяющее Красному игроку выполнять только определенные действия (ему не разрешено перемещаться из Рура в Бургундию, и они должны переехать из Пьемонта в Марсель).
Верно: Контракт между красными и зелеными игроками, который накладывает ограничения на обе стороны.
Мы рассматриваем два протокола: протокол взаимных предложений и протокол «предложение-выбор», подробно обсуждаемые в полной статье. Наши агенты применяют алгоритмы, которые определяют взаимовыгодные сделки, моделируя, как может разворачиваться игра в рамках различных контрактов. Мы используем решение Нэша для переговоров из теории игр в качестве принципиальной основы для выявления высококачественных соглашений. Игра может развиваться по-разному в зависимости от действий игроков, поэтому наши агенты используют симуляцию Монте-Карло, чтобы увидеть, что может произойти в следующий ход.
Моделирование следующих состояний при наличии согласованного контракта. Слева: текущее состояние части доски, включая договор, заключенный между красными и зелеными игроками. Справа: несколько возможных следующих состояний.
Наши эксперименты показывают, что наш механизм переговоров позволяет базовым переговорщикам значительно превосходить базовые необщающиеся агенты.
Базовые переговорщики значительно превосходят необщающихся агентов. Слева: Протокол взаимного предложения. Справа: протокол «Предложи-выбери». «Преимущество переговорщика» — это соотношение выигрышей между общающимися и необщающимися агентами.
Агенты нарушают соглашения
В дипломатии соглашения, достигнутые в ходе переговоров, не являются обязательными (общение – это «дешевая болтовня»). Но что происходит, когда агенты, согласившиеся на контракт в один ход, отклоняются от него в следующий? Во многих ситуациях реальной жизни люди соглашаются действовать определенным образом, но впоследствии не выполняют своих обязательств. Чтобы обеспечить сотрудничество между агентами ИИ или между агентами и людьми, мы должны изучить потенциальную ловушку, в которой агенты стратегически нарушают свои соглашения, и способы решения этой проблемы. Мы использовали «Дипломатию», чтобы изучить, как способность отказываться от своих обязательств подрывает доверие и сотрудничество, и определить условия, которые способствуют честному сотрудничеству.
Поэтому мы рассматриваем Агентов-Девиаторов, которые побеждают честных Переговорщиков Базового уровня, отклоняясь от согласованных контрактов. Простые Девиаторы просто «забывают», что согласились на контракт, и действуют, как хотят. Условные девиаторы более сложны и оптимизируют свои действия, предполагая, что другие игроки, принявшие контракт, будут действовать в соответствии с ним.
Все виды наших коммуникационных агентов. Согласно терминам зеленой группировки, каждый синий блок представляет собой определенный алгоритм агента.
Мы показываем, что простые и условные девиаторы значительно превосходят базовые переговорщики, причём условные девиаторы — в подавляющем большинстве.
Агенты-отклонители против базовых агентов-переговорщиков. Слева: Протокол взаимного предложения. Справа: протокол «Предложи-выбери». «Преимущество девиатора» — это соотношение побед агентов девиатора по сравнению с базовыми переговорщиками.
Призываем агентов быть честными
Далее мы решаем проблему отклонений с помощью защитных агентов, которые негативно реагируют на отклонения. Мы расследуем Бинарных Переговорщиков, которые просто обрывают связь с агентами, нарушающими с ними соглашение. Но избегание — это мягкая реакция, поэтому мы также развиваем агентов санкций, которые не воспринимают предательство легкомысленно, а вместо этого изменяют свои цели, чтобы активно пытаться снизить ценность уклониста — затаившего обиду противника! Мы показываем, что оба типа защитных агентов уменьшают преимущество отклонения, особенно агенты, налагающие санкции.
Агенты, не являющиеся девиаторами (базовые переговорщики, бинарные переговорщики и агенты, применяющие санкции), играют против условных девиаторов. Слева: Протокол взаимного предложения. Справа: протокол «Предложи-выбери». Значения «Преимущества девиатора» ниже 1 указывают на то, что Защитный агент превосходит Агента-девиатора. Популяция бинарных переговорщиков (синий) уменьшает преимущество девиаторов по сравнению с популяцией базовых переговорщиков (серый).
Наконец, мы представляем «обученных уклонистов», которые адаптируют и оптимизируют свое поведение против агентов санкций в течение нескольких игр, пытаясь сделать вышеупомянутую защиту менее эффективной. Обученный девиатор разорвет контракт только в том случае, если немедленная выгода от отклонения достаточно высока, а способность другого агента принять ответные меры достаточно низка. На практике Обученные Отклонители иногда разрывают контракты на поздних стадиях игры и при этом получают небольшое преимущество перед Агентами, налагающими санкции. Тем не менее, такие санкции заставляют «Ученый уклонист» выполнять более 99,7% своих контрактов.
Мы также изучаем возможную динамику обучения санкциям и отклонениям: что происходит, когда агенты, применяющие санкции, также могут отклоняться от контрактов, и потенциальный стимул прекратить санкции, когда такое поведение обходится дорого. Такие проблемы могут постепенно подорвать сотрудничество, поэтому могут потребоваться дополнительные механизмы, такие как повторение взаимодействия в нескольких играх или использование систем доверия и репутации.
Наша статья оставляет много вопросов открытыми для будущих исследований: возможно ли разработать более сложные протоколы, поощряющие еще более честное поведение? Как можно справиться с сочетанием коммуникационных технологий и несовершенной информации? Наконец, какие еще механизмы могли бы предотвратить нарушение соглашений? Создание справедливых, прозрачных и заслуживающих доверия систем искусственного интеллекта — чрезвычайно важная тема и ключевая часть миссии DeepMind. Изучение этих вопросов в таких «песочницах», как «Дипломатия», помогает нам лучше понять противоречия между сотрудничеством и конкуренцией, которые могут существовать в реальном мире. В конечном итоге мы считаем, что решение этих проблем позволит нам лучше понять, как разрабатывать системы ИИ в соответствии с ценностями и приоритетами общества.
Прочитайте нашу полную статью здесь.