GopherCite: обучение языковым моделям для поддержки ответов с проверенными цитатами | GPTMain News

В прошлом году DeepMind опубликовала серию статей о больших языковых моделях (LLM), включая анализ Gopher, нашей большой языковой модели. Технология языкового моделирования, которая в настоящее время разрабатывается несколькими другими лабораториями и компаниями, обещает улучшить многие приложения, от поисковых систем до новой волны диалоговых помощников, подобных чат-ботам, и не только. В одной статье из этой серии изложен ряд причин, по которым «сырые» языковые модели, такие как Gopher, не соответствуют нашим стандартам безопасного развертывания этой технологии в приложениях, ориентированных на пользователя, особенно если в ней не установлены защитные ограждения для управления проблемным и потенциально опасным поведением. место.

Наша последняя работа посвящена одной из этих проблем: языковые модели, подобные Gopher, могут «галлюцинировать» факты, которые кажутся правдоподобными, но на самом деле являются фальшивыми. Те, кто знаком с этой проблемой, знают, что нужно проводить собственную проверку фактов, а не доверять тому, что говорят языковые модели. Те, кто этого не делает, могут в конечном итоге поверить во что-то, что не соответствует действительности. В этой статье описывается GopherCite, модель, целью которой является решение проблемы галлюцинаций языковой модели. GopherCite пытается подкрепить все свои фактические утверждения доказательствами из Интернета. Он использует поиск Google для поиска соответствующих веб-страниц в Интернете и цитирует отрывок, который пытается продемонстрировать, почему его ответ правильный. Если система не может сформировать ответ, который может быть подтвержден доказательствами, она говорит пользователю: «Я не знаю», вместо того, чтобы давать необоснованный ответ.

Поддержка простых фактических утверждений легко проверяемыми доказательствами — это один шаг к тому, чтобы сделать языковые модели более заслуживающими доверия как для взаимодействующих с ними пользователей, так и для аннотаторов, оценивающих качество образцов. Сравнение поведения «сырого» Gopher и нашей новой модели помогает проиллюстрировать это изменение.

Судя по ответу GopherCite, вы заметите, что Гофер выдумал факт («Лейк-Плэсид принимал зимние Олимпийские игры в 1936 году») без предупреждения. Когда GopherCite показывает проверенный фрагмент соответствующей страницы Википедии, мы можем подтвердить, что Лейк-Плэсид принимал Олимпийские игры только дважды, в 1932 и 1980 годах.

Чтобы изменить поведение Gopher таким образом, мы обучили Gopher в соответствии с предпочтениями человека. Мы попросили участников исследования пользователей выбрать предпочтительный ответ из пары кандидатов в соответствии с критериями, в том числе с тем, насколько хорошо доказательства подтверждают данные ответы. Эти метки использовались в качестве обучающих данных как для контролируемого обучения на образцах с высоким рейтингом, так и для обучения с подкреплением на основе человеческих предпочтений (RLHP). Мы также использовали этот подход в нашей недавней работе над красной командой.

Мы не единственные, кого интересует проблема фактической неточности языковых моделей. Наши коллеги из Google недавно добились прогресса в изучении фактов в своей последней системе LaMDA, в которой диалоговая модель взаимодействует с поиском Google и иногда обменивается релевантными URL-адресами. Действительно, в режиме обучения GopherCite используется аналогичная методология, что и в LaMDA, но важное отличие состоит в том, что мы стремимся предоставить конкретный фрагмент соответствующих доказательств, а не просто указать пользователю на URL-адрес. Руководствуясь мотивами, схожими с нашими, OpenAI недавно объявила о разработке тесно связанной системы под названием WebGPT, которая также применяет RLHP для согласования своей языковой модели GPT-3. В то время как GopherCite фокусируется на чтении длинных входных документов, WebGPT тщательно контролирует контекст, представленный языковой модели, многократно взаимодействуя с веб-браузером. Он также приводит доказательства в поддержку своих ответов. Сходства и различия между этими системами и нашей собственной обсуждаются в нашей статье, а также мы показываем, что GopherCite очень часто предоставляет убедительные доказательства своих утверждений.

Мы провели исследование пользователей с платными участниками, чтобы оценить модель по двум типам вопросов: вопросы для поиска фактов, введенные в поиск Google (выпущенные Google в наборе данных под названием «NaturalQuestions»), и вопросы для поиска объяснений, которые пользователи Reddit задавали на форум под названием «/r/eli5» («Объясните это, как будто мне 5 лет»). [years old]»). Участники нашего исследования определили, что GopherCite отвечает на вопросы, требующие фактов, правильно – и с удовлетворительными доказательствами – примерно в 80% случаев, а на вопросы, требующие объяснений, отвечает примерно в 67% случаев. Когда мы позволяем GopherCite воздерживаться от ответа на некоторые вопросы, его производительность значительно улучшается среди вопросов, на которые он решает ответить (подробности см. в документе). Этот явный механизм воздержания является основным вкладом нашей работы.

Но когда мы оцениваем модель по набору «состязательных» вопросов, которые пытаются обманом заставить модель повторять вымысел или заблуждение, изложенное в Интернете, GopherCite часто попадает в ловушку. Например, на вопрос «что вам дает Red Bull?» компания отвечает вот что:

Мы считаем, что этого режима сбоя и других, обсуждаемых в нашей статье, можно избежать, обогатив настройку, перейдя от «однократного» ответа на вопрос пользователя к такому, в котором модель может задавать уточняющие вопросы пользователю и участвовать в диалог. Например, мы могли бы позволить будущим моделям спрашивать пользователя, хочет ли он получить ответ, который является правдой в буквальном смысле или правдив в пределах вымышленного мира рекламы Red Bull.

Подводя итог, мы считаем, что GopherCite — это важный шаг вперед, но его создание научило нас тому, что цитирование доказательств — это лишь часть общей стратегии безопасности и надежности. Более фундаментально, не все утверждения требуют цитирования доказательств – и, как мы продемонстрировали выше, не все утверждения, подкрепленные доказательствами, верны. Некоторые утверждения требуют нескольких доказательств, а также логического аргумента, объясняющего, почему такое утверждение следует. Мы продолжим работать в этой области и стремимся решить возникающие проблемы посредством дальнейших исследований и разработок, а также специальных социотехнических исследований.

В нашей статье рассматривается гораздо больше подробностей о наших методах, экспериментах и ​​соответствующем контексте из исследовательской литературы. Мы также создали FAQ о GopherCite, на который сама модель отвечает после прочтения введения к статье (с использованием образцов-кандидатов, отобранных авторами):

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس