Обнаружение присутствия агента в системе | GPTMain News

Новое формальное определение агентства дает четкие принципы причинно-следственного моделирования агентов ИИ и стимулов, с которыми они сталкиваются.

Мы хотим создавать безопасные, согласованные системы общего искусственного интеллекта (AGI), которые преследуют цели, намеченные их разработчиками. Диаграммы причинно-следственных связей (CID) — это способ моделирования ситуаций принятия решений, которые позволяют нам рассуждать о стимулах агентов. Например, вот CID для одношагового марковского процесса принятия решений — типичная структура для задач принятия решений.

S₁ представляет начальное состояние, A₁ представляет решение агента (квадрат), S₂ следующее состояние. R₂ — вознаграждение/полезность агента (алмаз). Сплошные связи указывают на причинное влияние. Штриховые ребра обозначают информационные связи — то, что знает агент при принятии решения.

Связывая настройки обучения со стимулами, которые формируют поведение агента, CID помогают выявить потенциальные риски перед обучением агента и могут вдохновить на создание более совершенных моделей агентов. Но как узнать, является ли CID точной моделью тренировочной установки?

В нашей новой статье «Обнаружение агентов» представлены новые способы решения этих проблем, в том числе:

  • Первое формальное каузальное определение агентов: Агенты — это системы, которые адаптировали бы свою политику, если бы их действия по-другому влияли на мир.
  • Алгоритм обнаружения агентов по эмпирическим данным
  • Перевод между каузальными моделями и CID
  • Устранение прежних недоразумений из-за неправильного причинно-следственного моделирования агентов

В совокупности эти результаты обеспечивают дополнительный уровень уверенности в том, что ошибка моделирования не была допущена, а это означает, что CID можно использовать для анализа стимулов и характеристик безопасности агента с большей уверенностью.

Пример: моделирование мыши как агента

Чтобы проиллюстрировать наш метод, рассмотрим следующий пример, состоящий из мира, состоящего из трех квадратов, где мышь, начиная с среднего квадрата, выбирает, идти ли влево или вправо, добирается до своей следующей позиции и затем, возможно, получает немного сыра. Пол ледяной, так что мышь может поскользнуться. Иногда сыр справа, а иногда слева.

Мышь и сырная среда.

Это может быть представлено следующим CID:

CID для мыши. D представляет решение левого/правого. X — это новая позиция мыши после выполнения действия влево/вправо (она может соскользнуть и случайно оказаться на другой стороне). U представляет, получит ли мышь сыр или нет.

Интуитивное предположение о том, что мышь выбрала бы различное поведение для различных параметров окружающей среды (холодность, распределение сыра), может быть зафиксировано с помощью механизированного причинно-следственного графика. который для каждой переменной (уровня объекта) также включает переменную механизма, которая определяет, как переменная зависит от своих родителей. Важно отметить, что мы допускаем связи между переменными механизма.

Этот граф содержит дополнительные узлы механизма, выделенные черным цветом, представляющие политику мыши, а также распределение холода и сыра.

Механизированный причинно-следственный граф для среды мыши и сыра.

Границы между механизмами представляют собой прямое причинное влияние. Синие края особенные Терминал ребра — грубо говоря, ребра механизма A~ → B~, которые все еще были бы там, даже если переменная уровня объекта A была изменена так, чтобы у нее не было исходящих ребер.

В приведенном выше примере, поскольку U не имеет дочерних элементов, его ребро механизма должно быть терминальным. Но механическое ребро X~ → D~ не является терминальным, потому что если мы отрежем X от его дочернего элемента U, то мышь больше не будет адаптировать свое решение (поскольку ее положение не повлияет на получение сыра).

Причинное обнаружение агентов

Причинное обнаружение выводит причинно-следственный график из экспериментов, включающих вмешательства. В частности, можно обнаружить стрелку от переменной A к переменной B, экспериментально вмешавшись в A и проверив, реагирует ли B, даже если все остальные переменные остаются фиксированными.

Наш первый алгоритм использует эту технику для обнаружения механизированного причинно-следственного графа:

Алгоритм 1 принимает в качестве входных данных интервенционные данные из системы (среда мыши и сыра) и использует обнаружение причинно-следственных связей для вывода механизированного причинно-следственного графика. Подробнее см. в документе.

Наш второй алгоритм преобразует этот механизированный причинно-следственный граф в игровой граф:

Алгоритм 2 принимает в качестве входных данных механизированный причинный граф и отображает его в игровой граф. Входящее оконечное ребро указывает на решение, исходящее указывает на полезность.

В совокупности Алгоритм 1, за которым следует Алгоритм 2, позволяет нам обнаруживать агентов из каузальных экспериментов, представляя их с помощью CID.

Наш третий алгоритм преобразует игровой граф в механизированный каузальный граф, позволяя нам переводить представления между игрой и механизированным каузальным графом при некоторых дополнительных предположениях:

Алгоритм 3 принимает в качестве входных данных игровой граф и отображает его в механизированный причинно-следственный граф. Решение указывает на входящее оконечное ребро, полезность указывает на исходящее терминальное ребро.

Улучшенные инструменты безопасности для моделирования агентов ИИ

Мы предложили первое формальное каузальное определение агентов. Основанное на каузальном открытии, наше ключевое понимание заключается в том, что агенты — это системы, которые адаптируют свое поведение в ответ на изменения в том, как их действия влияют на мир. Действительно, наши алгоритмы 1 и 2 описывают точный экспериментальный процесс, который может помочь оценить, содержит ли система агент.

Интерес к причинно-следственному моделированию систем ИИ быстро растет, и наше исследование основывает это моделирование на экспериментах по обнаружению причинно-следственных связей. Наша статья демонстрирует потенциал нашего подхода, улучшая анализ безопасности нескольких примеров систем ИИ, и показывает, что причинно-следственная связь является полезной основой для обнаружения агента в системе, что является ключевой проблемой при оценке рисков, связанных с ОИИ.

Хотите узнать больше? Ознакомьтесь с нашей газетой. Отзывы и комментарии приветствуются.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس