Как могут возникнуть нежелательные цели при правильном вознаграждении | GPTMain News

Исследовать

Опубликовано
Авторы

Рохин Шах, Виктория Краковна, Викрант Варма, Закари Кентон

Изучение примеров неправильного обобщения целей: когда возможности системы ИИ обобщаются, а ее цель — нет.

Создавая все более совершенные системы искусственного интеллекта (ИИ), мы хотим быть уверены, что они не преследуют нежелательных целей. Такое поведение ИИ-агента часто является результатом игры со спецификациями – использования неправильного выбора того, за что они вознаграждаются. В нашей последней статье мы исследуем более тонкий механизм, с помощью которого системы ИИ могут непреднамеренно научиться преследовать нежелательные цели: неправильное обобщение цели (ГМГ).

GMG возникает, когда система возможности обобщать успешно, но это цель не обобщает желаемым образом, поэтому система грамотно преследует не ту цель. Важно отметить, что в отличие от игр со спецификациями, GMG может возникнуть, даже если система ИИ обучена с использованием правильной спецификации.

Наша более ранняя работа по культурной передаче привела к примеру поведения GMG, который мы не проектировали. Агент (синяя капля внизу) должен перемещаться по окружающей среде, посещая цветные сферы в правильном порядке. Во время обучения есть «экспертный» агент (красная капля), который посещает цветные сферы в правильном порядке. Агент узнает, что следование за красной каплей — полезная стратегия.

Агент (синий) наблюдает за экспертом (красный), чтобы определить, в какую сферу ему следует обратиться.

К сожалению, агент хорошо работает во время обучения, но плохо, когда после обучения мы заменяем эксперта «антиэкспертом», который посещает сферы в неправильном порядке.

Агент (синий) следует за антиэкспертом (красный), накапливая отрицательное вознаграждение.

Даже несмотря на то, что агент может наблюдать, что он получает отрицательное вознаграждение, агент не преследует желаемую цель «посетить сферы в правильном порядке», а вместо этого грамотно преследует цель «следовать за красным агентом».

GMG не ограничивается такими средами обучения с подкреплением, как эта. Фактически, это может произойти с любой системой обучения, включая «обучение в несколько этапов» больших языковых моделей (LLM). Подходы к обучению с небольшим количеством попыток направлены на создание точных моделей с меньшим количеством обучающих данных.

Мы предложили одному LLM, Gopher, оценить линейные выражения, включающие неизвестные переменные и константы, такие как x + y-3. Чтобы решить эти выражения, Gopher должен сначала спросить о значениях неизвестных переменных. Мы предоставляем ему десять обучающих примеров, каждый из которых включает две неизвестные переменные.

Во время тестирования модели задаются вопросы с нулем, одной или тремя неизвестными переменными. Хотя модель правильно обобщает выражения с одной или тремя неизвестными переменными, когда неизвестных нет, она, тем не менее, задает избыточные вопросы, такие как «Сколько будет 6?». Модель всегда запрашивает пользователя хотя бы один раз, прежде чем дать ответ, даже если в этом нет необходимости.

Диалоги с Gopher для краткого обучения выполнению задачи «Оценка выражений» с выделенным поведением GMG.

В нашей статье мы приводим дополнительные примеры из других условий обучения.

Решение проблемы GMG важно для согласования систем ИИ с целями их разработчиков просто потому, что это механизм, из-за которого система ИИ может дать сбой. Это будет особенно важно, когда мы приближаемся к искусственному общему интеллекту (AGI).

Рассмотрим два возможных типа систем AGI:

  • A1: Предполагаемая модель. Эта система искусственного интеллекта делает то, что задумали ее создатели.
  • A2: Обманчивая модель. Эта система ИИ преследует какую-то нежелательную цель, но (по предположению) достаточно умна, чтобы знать, что она будет наказана, если будет вести себя вопреки намерениям ее создателя.

Поскольку A1 и A2 будут демонстрировать одинаковое поведение во время обучения, возможность GMG означает, что любая модель может принять форму, даже со спецификацией, которая вознаграждает только предполагаемое поведение. Если А2 будет изучен, он попытается подорвать человеческий надзор, чтобы реализовать свои планы по достижению нежелательной цели.

Наша исследовательская группа была бы рада увидеть дальнейшую работу по изучению вероятности возникновения GMG на практике и возможных способов смягчения последствий. В нашей статье мы предлагаем некоторые подходы, в том числе механистическую интерпретируемость и рекурсивное оценивание, над которыми мы активно работаем.

В настоящее время мы собираем примеры GMG в этой общедоступной таблице. Если вы столкнулись с ошибочным обобщением целей в исследованиях ИИ, мы приглашаем вас представить примеры здесь.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس