В прошлом году DeepMind опубликовал серию статей о больших языковых моделях (LLM), включая анализ Gopher, нашей большой языковой модели. Технология языкового моделирования, которая в настоящее время также разрабатывается несколькими другими лабораториями и компаниями, обещает усилить многие приложения, от поисковых систем до новой волны диалоговых помощников, подобных чат-ботам, и не только. В одной статье из этой серии изложен ряд причин, по которым «сырые» языковые модели, такие как Gopher, не соответствуют нашим стандартам безопасного развертывания этой технологии в ориентированных на пользователя приложениях, особенно если в них не установлены защитные барьеры для управления проблемным и потенциально опасным поведением. место.
Наша последняя работа сосредоточена на одной из этих проблем: языковые модели, такие как Gopher, могут «галлюцинировать» факты, которые кажутся правдоподобными, но на самом деле являются фальшивыми. Те, кто знаком с этой проблемой, знают, что нужно проводить собственную проверку фактов, а не доверять тому, что говорят языковые модели. Те, кто этого не делает, могут в конечном итоге поверить в то, что не соответствует действительности. В этой статье описывается GopherCite, модель, которая направлена на решение проблемы галлюцинации языковой модели. GopherCite пытается подкрепить все свои фактические утверждения доказательствами из Интернета. Он использует поиск Google для поиска соответствующих веб-страниц в Интернете и цитирует отрывок, который пытается продемонстрировать, почему его ответ правильный. Если система не может сформировать ответ, который может быть хорошо подтвержден фактами, она говорит пользователю «я не знаю», вместо того, чтобы давать необоснованный ответ.
Поддержка простых фактических утверждений легко проверяемыми доказательствами — это один из шагов к тому, чтобы сделать языковые модели более надежными как для пользователей, взаимодействующих с ними, так и для аннотаторов, оценивающих качество образцов. Сравнение поведения «сырого» Gopher и нашей новой модели помогает проиллюстрировать это изменение.
Основываясь на ответе GopherCite, вы заметите, что Гофер выдумал факт («Лейк-Плэсид принимал зимние Олимпийские игры в 1936 году») без предупреждения. Когда GopherCite показывает проверенный фрагмент соответствующей страницы Википедии, мы можем подтвердить, что Лейк-Плэсид принимал Олимпийские игры только дважды, в 1932 и 1980 годах.
Чтобы таким образом изменить поведение Гофера, мы обучали Гофера в соответствии с человеческими предпочтениями. Мы попросили участников пользовательского исследования выбрать предпочитаемый ответ из пары кандидатов в соответствии с критериями, включая то, насколько хорошо факты подтверждают данные ответы. Эти метки использовались в качестве обучающих данных как для контролируемого обучения на высоко оцененных образцах, так и для обучения с подкреплением на основе человеческих предпочтений (RLHP). Мы также использовали этот подход в нашей недавней работе над Red Teaming.
Мы не единственные, кого интересует эта проблема фактической неточности в языковых моделях. Наши коллеги из Google недавно добились прогресса в области фактического обоснования своей последней системы LaMDA, используя диалоговую модель, взаимодействующую с поиском Google и иногда обменивающуюся соответствующими URL-адресами. Действительно, режим обучения GopherCite использует ту же методологию, что и LaMDA, но существенное отличие состоит в том, что мы стремимся предоставить конкретный фрагмент соответствующих доказательств, а не просто указать пользователю URL-адрес. Основываясь на мотивах, схожих с нашими, OpenAI недавно объявила о разработке тесно связанной системы под названием WebGPT, которая также применяет RLHP для согласования своей языковой модели GPT-3. В то время как GopherCite фокусируется на чтении длинных входных данных документа, WebGPT тщательно контролирует контекст, представленный языковой модели, многократно взаимодействуя с веб-браузером. Он также приводит доказательства, подтверждающие его ответы. Сходства и различия между этими системами и нашей собственной обсуждаются в нашей статье, и мы также демонстрируем, что GopherCite очень часто предоставляет убедительные доказательства своих утверждений.
Мы провели пользовательское исследование с платными участниками, чтобы оценить модель по двум типам вопросов: вопросы для поиска фактов, введенные в поиске Google (выпущенные Google в наборе данных под названием «NaturalQuestions»), и вопросы для поиска объяснений, которые пользователи Reddit задавали на форум под названием «/r/eli5» («Объясни, как будто мне 5 [years old]»). Участники нашего исследования определили, что GopherCite правильно отвечает на вопросы, направленные на поиск фактов, и дает удовлетворительные доказательства примерно в 80% случаев, а на вопросы, требующие объяснения, — примерно в 67% случаев. Когда мы разрешаем GopherCite воздерживаться от ответов на некоторые вопросы, его производительность резко возрастает среди вопросов, на которые он решает ответить (подробности см. в документе). Этот явный механизм воздержания является основным вкладом нашей работы.
Но когда мы оцениваем модель по набору «противоположных» вопросов, которые пытаются обмануть модель, заставляя ее повторить вымысел или заблуждение, изложенное в Интернете, GopherCite часто попадает в ловушку. Например, когда его спрашивают: «Что вам дает Red Bull?», он отвечает так:
Мы думаем, что этого режима отказа и других, обсуждаемых в нашей статье, можно избежать, обогатив настройку, перейдя от «однократного» ответа на вопрос пользователя к такому, в котором модель может задавать уточняющие вопросы пользователю и участвовать в диалог. Например, мы могли бы позволить будущим моделям спрашивать пользователя, нужен ли им ответ, который является правдой в буквальном смысле или ответом, который является правдой в рамках вымышленного мира рекламы Red Bull.
Подводя итог, мы считаем, что GopherCite — это важный шаг вперед, но его создание научило нас тому, что цитирование доказательств — это только часть общей стратегии обеспечения безопасности и надежности. Более того, не все утверждения требуют цитирования доказательств — и, как мы показали выше, не все утверждения, подкрепленные доказательствами, верны. Некоторые утверждения требуют нескольких доказательств вместе с логическим аргументом, объясняющим, почему утверждение следует. Мы продолжим работу в этой области и постараемся решить проблемы, связанные с дальнейшими исследованиями и разработками, а также специальными социотехническими исследованиями.
В нашей статье содержится гораздо больше подробностей о наших методах, экспериментах и соответствующем контексте из исследовательской литературы. Мы также создали часто задаваемые вопросы о GopherCite, на которые сама модель ответила после прочтения введения статьи (используя образцы-кандидаты, отобранные авторами):