Улучшение языковых моделей путем извлечения из триллионов токенов | GPTMain News

В последние годы значительный прирост производительности при авторегрессионном языковом моделировании был достигнут за счет увеличения количества параметров в моделях Transformer. Это привело к огромному увеличению затрат энергии на обучение и привело к созданию плотных «больших языковых моделей» (LLM) со 100+ миллиардами параметров. Одновременно были собраны большие наборы данных, содержащие триллионы слов, для облегчения обучения этих LLM.

Мы исследуем альтернативный путь улучшения языковых моделей: мы дополняем преобразователи поиском по базе данных текстовых отрывков, включая веб-страницы, книги, новости и код. Мы называем наш метод RETRO, что означает «улучшенные транформеры с поиском».

В традиционных моделях языка-трансформера преимущества размера модели и размера данных связаны: пока набор данных достаточно велик, производительность языкового моделирования ограничивается размером модели. Однако с помощью RETRO модель не ограничивается данными, наблюдаемыми во время обучения — она имеет доступ ко всему набору обучающих данных через механизм поиска. Это приводит к значительному приросту производительности по сравнению со стандартным Трансформатором с тем же количеством параметров. Мы показываем, что языковое моделирование постоянно совершенствуется по мере увеличения размера поисковой базы данных, по крайней мере, до 2 триллионов токенов — 175 полных жизней непрерывного чтения.

Для каждого отрывка текста (приблизительно абзаца документа) выполняется поиск ближайшего соседа, который возвращает аналогичные последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение входного текста. Архитектура RETRO чередует регулярное самообслуживание на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне прохода. Это приводит как к более точным, так и к более фактическим продолжениям. Кроме того, RETRO повышает интерпретируемость прогнозов модели и предоставляет возможность прямого вмешательства через поисковую базу данных для повышения безопасности продолжения текста. В наших экспериментах с Pile, стандартным эталоном языкового моделирования, модель RETRO с 7,5 миллиардами параметров превосходит Jurassic-1 с 175 миллиардами параметров в 10 из 16 наборов данных и превосходит 280B Gopher в 9 из 16 наборов данных.

Ниже мы показываем два образца из нашей базовой модели 7B и из нашей модели 7.5B RETRO, которые подчеркивают, что образцы RETRO более фактичны и больше соответствуют теме, чем базовый образец.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس