Улучшение языковых моделей путем извлечения из триллионов токенов | GPTMain News

В последние годы значительный прирост производительности в авторегрессионном языковом моделировании был достигнут за счет увеличения количества параметров в моделях Transformer. Это привело к огромному увеличению затрат энергии на обучение и привело к созданию плотных «больших языковых моделей» (LLM) с более чем 100 миллиардами параметров. Одновременно были собраны большие наборы данных, содержащие триллионы слов, чтобы облегчить обучение этих LLM.

Мы изучаем альтернативный путь улучшения языковых моделей: мы дополняем преобразователи поиском по базе данных отрывков текста, включая веб-страницы, книги, новости и код. Мы называем наш метод РЕТРО, что означает «Поиск расширенных трансформеров».

Рисунок 1: Общий обзор Retrieval Enhanced Transformers (RETRO).

В традиционных языковых моделях преобразования преимущества размера модели и размера данных связаны: пока набор данных достаточно велик, производительность языкового моделирования ограничена размером модели. Однако с RETRO модель не ограничивается данными, увиденными во время обучения, — она имеет доступ ко всему набору обучающих данных через механизм поиска. Это приводит к значительному приросту производительности по сравнению со стандартным преобразователем с тем же количеством параметров. Мы показываем, что языковое моделирование постоянно совершенствуется по мере увеличения размера поисковой базы данных, по крайней мере, до 2 триллионов токенов — 175 полных жизней непрерывного чтения.

Рис. 2. Увеличение размера набора поисковых данных приводит к значительному повышению производительности модели.

Для каждого фрагмента текста (примерно абзаца документа) выполняется поиск ближайшего соседа, который возвращает похожие последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение введенного текста. Архитектура RETRO чередует обычное внимание к себе на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне перехода. Это приводит к более точным и более фактическим продолжениям. Кроме того, RETRO повышает интерпретируемость прогнозов моделей и обеспечивает возможность прямого вмешательства в базу данных поиска для повышения безопасности продолжения текста. В наших экспериментах с Pile, эталоном стандартного языкового моделирования, модель RETRO с 7,5 миллиардами параметров превосходит Jurassic-1 со 175 миллиардами параметров на 10 из 16 наборов данных и превосходит 280B Gopher на 9 из 16 наборов данных.

Ниже мы показываем два образца из нашей базовой модели 7B и из нашей модели модели 7.5B RETRO, которые подчеркивают, что образцы RETRO являются более фактическими и более актуальными, чем базовый образец.

Рисунок 3: Базовый уровень дает только 2 правильные цифры. В RETRO правильные цифры генерируются после их извлечения из базы данных.
Рис. 4. Модель RETRO более актуальна, чем базовый образец. Введите здесь подпись к изображению (необязательно)

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس