Исследовать
Новое исследование предлагает основу для оценки моделей общего назначения на предмет защиты от новых угроз
Чтобы ответственно стать пионером в области передовых исследований в области искусственного интеллекта (ИИ), мы должны как можно раньше выявлять новые возможности и новые риски в наших системах ИИ.
Исследователи ИИ уже используют ряд критериев оценки для выявления нежелательного поведения в системах ИИ, например, когда системы ИИ делают вводящие в заблуждение заявления, принимают предвзятые решения или повторяют контент, защищенный авторским правом. Теперь, когда сообщество ИИ создает и развертывает все более мощный ИИ, мы должны расширить портфель оценок, включив в него возможность экстремальные риски от моделей ИИ общего назначения, которые обладают сильными навыками манипулирования, обмана, киберпреступлений или других опасных способностей.
В нашей последней статье мы представляем систему оценки этих новых угроз, написанную в соавторстве с коллегами из Кембриджского университета, Оксфордского университета, Университета Торонто, Университета Монреаля, OpenAI, Anthropic, Центра исследования выравнивания, Центра долгосрочных исследований. Устойчивость и Центр управления искусственным интеллектом.
Оценки безопасности моделей, в том числе оценки экстремальных рисков, станут важнейшим компонентом безопасной разработки и внедрения ИИ.
Обзор предлагаемого нами подхода: чтобы оценить экстремальные риски, связанные с новыми системами искусственного интеллекта общего назначения, разработчики должны оценить опасные возможности и согласованность (см. ниже). Выявление рисков на ранней стадии откроет возможности для большей ответственности при обучении новых систем ИИ, их развертывании, прозрачном описании рисков и применении соответствующих стандартов кибербезопасности.
Оценка экстремальных рисков
Модели общего назначения обычно изучают свои возможности и поведение во время обучения. Однако существующие методы управления процессом обучения несовершенны. Например, предыдущее исследование Google DeepMind показало, как системы искусственного интеллекта могут научиться преследовать нежелательные цели, даже если мы правильно вознаграждаем их за хорошее поведение.
Ответственные разработчики ИИ должны смотреть вперед и предвидеть возможные будущие события и новые риски. После дальнейшего прогресса будущие модели общего назначения могут по умолчанию обучиться множеству опасных возможностей. Например, вполне вероятно (хотя и сомнительно), что будущие системы искусственного интеллекта смогут проводить наступательные кибероперации, умело обманывать людей в диалоге, манипулировать людьми, заставляя их совершать вредоносные действия, разрабатывать или приобретать оружие (например, биологическое, химическое), штрафовать людей. настраивать и эксплуатировать другие системы искусственного интеллекта высокого риска на платформах облачных вычислений или помогать людям решать любые из этих задач.
Люди со злыми намерениями, получающие доступ к таким моделям, могут злоупотребить их возможностями. Или из-за сбоев в согласовании эти модели ИИ могут совершать вредные действия даже без чьего-либо намерения.
Оценка модели помогает нам заранее выявить эти риски. В рамках нашей структуры разработчики ИИ будут использовать оценку модели, чтобы выявить:
- В какой степени модель обладает определенными «опасными возможностями», которые могут быть использованы для угрозы безопасности, оказания влияния или уклонения от надзора.
- В какой степени модель склонна применять свои возможности для причинения вреда (т.е. согласованность модели). Оценки согласования должны подтвердить, что модель ведет себя так, как задумано, даже в очень широком диапазоне сценариев, и, где это возможно, следует изучить внутреннюю работу модели.
Результаты этих оценок помогут разработчикам ИИ понять, присутствуют ли ингредиенты, достаточные для возникновения экстремального риска. Случаи наиболее высокого риска будут включать в себя сочетание нескольких опасных возможностей. Системе искусственного интеллекта не обязательно предоставлять все ингредиенты, как показано на этой диаграмме:
Ингредиенты крайнего риска: иногда определенные возможности могут быть переданы на аутсорсинг либо людям (например, пользователям или коллективным работникам), либо другим системам искусственного интеллекта. Эти возможности должны применяться во избежание вреда либо из-за неправильного использования, либо из-за ошибок в выравнивании (или из-за сочетания того и другого).
Эмпирическое правило: сообщество ИИ должно относиться к системе ИИ как к очень опасной, если она имеет профиль возможностей, достаточный для нанесения чрезвычайного вреда. предполагая он используется неправильно или плохо выровнен. Чтобы развернуть такую систему в реальном мире, разработчику ИИ необходимо продемонстрировать необычайно высокий уровень безопасности.
Оценка модели как критическая инфраструктура управления
Если у нас будут более эффективные инструменты для определения того, какие модели являются рискованными, компании и регулирующие органы смогут лучше гарантировать:
- Ответственное обучение: Принимаются ответственные решения о том, следует ли и как обучать новую модель, показывающую ранние признаки риска, и если да, то как.
- Ответственное развертывание: Принимаются ответственные решения о том, когда и как развертывать потенциально рискованные модели.
- Прозрачность: Полезная и полезная информация передается заинтересованным сторонам, чтобы помочь им подготовиться к потенциальным рискам или смягчить их.
- Соответствующая безопасность: К моделям, которые могут представлять чрезвычайные риски, применяются строгие меры и системы обеспечения информационной безопасности.
Мы разработали схему того, как оценка моделей экстремальных рисков должна учитываться при принятии важных решений по обучению и развертыванию высокоэффективной модели общего назначения. Разработчик проводит всестороннюю оценку и предоставляет доступ к структурированной модели внешним исследователям безопасности и аудиторам моделей, чтобы они могли проводить дополнительные оценки. Результаты оценки затем могут служить основой для оценки рисков перед обучением и развертыванием модели.
Схема внедрения оценок моделей экстремальных рисков в важные процессы принятия решений на протяжении обучения и развертывания модели.
Заглядывая вперед
Важная ранняя работа по оценке моделей экстремальных рисков уже ведется в Google DeepMind и других местах. Но для построения процесса оценки, который улавливает все возможные риски и помогает защититься от будущих, возникающих проблем, необходим гораздо больший прогресс – как технический, так и институциональный.
Оценка модели не является панацеей; некоторые риски могут ускользнуть, например, потому, что они слишком сильно зависят от внешних по отношению к модели факторов, таких как сложные социальные, политические и экономические силы в обществе. Оценка модели должна сочетаться с другими инструментами оценки риска и более широкой приверженностью безопасности в промышленности, правительстве и гражданском обществе.
В недавнем блоге Google об ответственном искусственном интеллекте говорится, что «индивидуальные практики, общие отраслевые стандарты и разумная государственная политика будут иметь важное значение для правильного внедрения искусственного интеллекта». Мы надеемся, что многие другие, работающие в сфере ИИ и секторах, на которые влияет эта технология, объединятся, чтобы создать подходы и стандарты для безопасной разработки и внедрения ИИ на благо всех.
Мы считаем, что наличие процессов отслеживания появления рискованных свойств в моделях и адекватного реагирования на тревожные результаты является важной частью работы ответственного разработчика, работающего на переднем крае возможностей ИИ.