Более быстрый и лучший способ предотвратить токсичные ответы чат-бота с искусственным интеллектом | Новости Массачусетского технологического института | GPTMain News

Пользователь может попросить ChatGPT написать компьютерную программу или резюмировать статью, а чат-бот с искусственным интеллектом, скорее всего, сможет сгенерировать полезный код или написать убедительный синопсис. Однако кто-то также может попросить инструкции по созданию бомбы, и чат-бот тоже сможет их предоставить.

Чтобы предотвратить эту и другие проблемы безопасности, компании, создающие большие языковые модели, обычно защищают их, используя процесс, называемый красной командой. Команды тестировщиков пишут подсказки, направленные на запуск небезопасного или токсичного текста из тестируемой модели. Эти подсказки используются для того, чтобы научить чат-бота избегать подобных ответов.

Но это работает эффективно только в том случае, если инженеры знают, какие токсичные подсказки использовать. Если тестировщики-люди пропустят некоторые подсказки (что, вероятно, учитывая количество возможностей), чат-бот, считающийся безопасным, все равно может генерировать небезопасные ответы.

Исследователи из лаборатории Improbable AI Lab Массачусетского технологического института и лаборатории искусственного интеллекта Watson MIT-IBM использовали машинное обучение для улучшения работы «красных команд». Они разработали метод обучения большой языковой модели красной команды автоматически генерировать разнообразные подсказки, которые вызывают более широкий спектр нежелательных ответов от тестируемого чат-бота.

Они делают это, обучая модель красной команды проявлять любопытство при написании подсказок и концентрироваться на новых подсказках, которые вызывают токсичную реакцию целевой модели.

Этот метод превзошел тестировщиков-людей и другие подходы машинного обучения, генерируя более четкие подсказки, которые вызывали все более токсичные реакции. Их метод не только значительно улучшает охват тестируемых входных данных по сравнению с другими автоматизированными методами, но также может вызывать токсичные ответы от чат-бота, в который были встроены средства защиты, созданные экспертами-людьми.

«Прямо сейчас каждая крупная языковая модель должна пройти очень длительный период «красной команды», чтобы обеспечить ее безопасность. Это не будет устойчивым, если мы хотим обновлять эти модели в быстро меняющихся условиях. Наш метод обеспечивает более быстрый и эффективный способ обеспечения такого качества», — говорит Чжан-Вэй Хун, аспирант в области электротехники и информатики (EECS) лаборатории Improbable AI и ведущий автор статьи об этом подходе «красной команды». .

В число соавторов Хонга входят аспиранты EECS Идан Шенфилд, Цун-Сюань Ван и Юнг-Сун Чуанг; Альдо Пареха и Акаш Шривастава, ученые-исследователи из лаборатории искусственного интеллекта Watson MIT-IBM; Джеймс Гласс, старший научный сотрудник и руководитель группы систем разговорного языка в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и старший автор Пулкит Агравал, директор лаборатории невероятного искусственного интеллекта и доцент CSAIL. Исследование будет представлено на Международной конференции по обучению представлений.

Автоматизированное объединение красных команд

Большие языковые модели, подобные тем, которые используются в чат-ботах с искусственным интеллектом, часто обучаются, показывая им огромные объемы текста с миллиардов общедоступных веб-сайтов. Таким образом, они не только могут научиться произносить токсичные слова или описывать незаконную деятельность, модели также могут разглашать личную информацию, которую они, возможно, собрали.

Утомительный и дорогостоящий характер объединения людей в красные команды, которое зачастую неэффективно для создания достаточно широкого спектра подсказок для полной защиты модели, побудил исследователей автоматизировать этот процесс с помощью машинного обучения.

Такие методы часто обучают модель красной команды с использованием обучения с подкреплением. Этот процесс проб и ошибок вознаграждает модель «красной команды» за создание подсказок, вызывающих токсичные реакции тестируемого чат-бота.

Но из-за того, как работает обучение с подкреплением, модель «красной команды» часто продолжает генерировать несколько похожих подсказок, которые очень токсичны, чтобы максимизировать вознаграждение.

В своем подходе к обучению с подкреплением исследователи Массачусетского технологического института использовали технику, называемую исследованием, основанным на любопытстве. Модель «красной команды» стимулирует интерес к последствиям каждой генерируемой подсказки, поэтому она пробует подсказки с разными словами, шаблонами предложений или значениями.

«Если модель красной команды уже видела конкретную подсказку, то ее воспроизведение не вызовет никакого интереса в модели красной команды, поэтому ее подтолкнут к созданию новых подсказок», — говорит Хонг.

В процессе обучения модель красной команды генерирует подсказку и взаимодействует с чат-ботом. Чат-бот отвечает, и классификатор безопасности оценивает токсичность его ответа, награждая модель красной команды на основе этого рейтинга.

Вознаграждение за любопытство

Цель модели «красной команды» — максимизировать вознаграждение, вызывая еще более токсичную реакцию с помощью новой подсказки. Исследователи активизируют любопытство в модели «красной команды», изменяя сигнал вознаграждения в системе обучения с подкреплением.

Во-первых, помимо максимизации токсичности, они включают бонус энтропии, который побуждает модель красной команды быть более случайной при исследовании различных подсказок. Во-вторых, чтобы заинтересовать агента, они включают в себя две новинки. Один вознаграждает модель на основе сходства слов в ее подсказках, а другой награждает модель на основе семантического сходства. (Меньшее сходство дает более высокую награду.)

Чтобы модель «красной команды» не генерировала случайный бессмысленный текст, который может обманом заставить классификатора присвоить высокий балл токсичности, исследователи также добавили к цели обучения бонус натуралистического языка.

Приняв эти дополнения, исследователи сравнили токсичность и разнообразие ответов, генерируемых их моделью красной команды, с другими автоматизированными методами. Их модель превзошла базовые показатели по обоим показателям.

Они также использовали свою модель «красной команды» для тестирования чат-бота, который был настроен на обратную связь с людьми, чтобы не давать токсичных ответов. Их подход, основанный на любопытстве, позволил быстро создать 196 подсказок, которые вызвали токсичную реакцию у этого «безопасного» чат-бота.

«Мы наблюдаем всплеск моделей, который, как ожидается, будет только расти. Представьте себе тысячи моделей или даже больше, и компании/лаборатории часто выпускают обновления моделей. Эти модели станут неотъемлемой частью нашей жизни, и важно, чтобы они были проверены перед выпуском для публичного использования. Ручная проверка моделей просто не масштабируема, и наша работа — это попытка сократить человеческие усилия для обеспечения более безопасного и заслуживающего доверия будущего ИИ», — говорит Агравал.

В будущем исследователи хотят, чтобы модель «красной команды» генерировала подсказки по более широкому кругу тем. Они также хотят изучить возможность использования большой языковой модели в качестве классификатора токсичности. Таким образом, пользователь может обучить классификатор токсичности, используя, например, документ о политике компании, чтобы модель красной команды могла проверить чат-бота на предмет нарушений политики компании.

«Если вы выпускаете новую модель ИИ и обеспокоены тем, будет ли она вести себя так, как ожидается, рассмотрите возможность использования красной команды, движимой любопытством», — говорит Агравал.

Это исследование частично финансируется Hyundai Motor Company, Quanta Computer Inc., MIT-IBM Watson AI Lab, исследовательским грантом Amazon Web Services MLRA, Исследовательским бюро армии США, Агентством перспективных исследовательских проектов Министерства обороны США Machine Common Sense. Программа, Управление военно-морских исследований США, Исследовательская лаборатория ВВС США и Ускоритель искусственного интеллекта ВВС США.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس