Эмпирический анализ оптимального для вычислений обучения модели большого языка | GPTMain News

В последние несколько лет основное внимание в языковом моделировании уделялось повышению производительности за счет увеличения количества параметров в моделях на основе преобразователей. Этот подход привел к впечатляющим результатам и высочайшему уровню производительности во многих задачах обработки естественного языка.

Мы также продолжили это направление исследований в DeepMind и недавно продемонстрировали Gopher, модель с 280 миллиардами параметров, которая показала лучшую производительность в широком спектре задач, включая моделирование языка, понимание прочитанного и ответы на вопросы. С тех пор была опубликована еще более крупная модель под названием Megatron-Turing NLG с 530 миллиардами параметров.

Из-за значительных затрат на обучение этих больших моделей крайне важно оценить наилучшую возможную настройку обучения, чтобы избежать напрасной траты ресурсов. В частности, стоимость вычислений для обучения преобразователей определяется двумя факторами: размером модели и количеством обучающих токенов.

Текущее поколение больших языковых моделей выделило увеличенные вычислительные ресурсы для увеличения количества параметров больших моделей и сохранения фиксированного размера обучающих данных на уровне около 300 миллиардов токенов. В этой работе мы эмпирически исследуем оптимальный компромисс между увеличением размера модели и объемом обучающих данных с увеличением вычислительных ресурсов. В частности, мы задаем вопрос: «Каков оптимальный размер модели и количество обучающих токенов для данного вычислительного бюджета?» Чтобы ответить на этот вопрос, мы обучаем модели разного размера и с разным количеством токенов и оцениваем этот компромисс эмпирически.
Наш главный вывод заключается в том, что нынешние большие языковые модели слишком велики для своего вычислительного бюджета и не обучаются на достаточном количестве данных. Фактически, мы обнаруживаем, что для количества обучающих FLOP, используемых для обучения Сусликмодель в 4 раза меньшего размера, обученная на 4 раза большем количестве данных, была бы предпочтительнее.

Мы проверяем нашу гипотезу масштабирования данных путем обучения Шиншилла, модель с 70 миллиардами параметров, обученная на 1,3 триллиона токенов. Хотя затраты на обучение для Chinchilla и Gopher одинаковы, мы обнаружили, что он превосходит Gopher и другие большие языковые модели почти во всех измеряемых задачах, несмотря на то, что у него 70 миллиардов параметров по сравнению с 280 миллиардами у Gopher.

После выпуска Chinchilla была выпущена модель PaLM с 540 миллиардами параметров и обученная на 768 миллиардах токенов. Эта модель была обучена с использованием примерно в 5 раз большего вычислительного бюджета, чем Chinchilla, и превзошла Chinchilla по ряду задач. Хотя обучающий корпус отличается, наши методы предсказывают, что такая модель, обученная на наших данных, превзойдет Chinchilla по производительности, несмотря на то, что она не является оптимальной с точки зрения вычислений. Учитывая вычислительный бюджет PaLM, мы прогнозируем, что модель со 140 миллиардами параметров, обученная на 3 триллионах токенов, будет оптимальной и более эффективной для вывода.

Дополнительным преимуществом меньших по размеру и более производительных моделей является то, что время вывода и затраты памяти сокращаются, что делает запросы к моделям более быстрыми и возможными на меньшем оборудовании. На практике, хотя затраты на обучение суслика и шиншиллы одинаковы, стоимость использования шиншиллы значительно меньше, а ее производительность выше. Возможны дальнейшие простые оптимизации, которые смогут продолжать приносить большую прибыль.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس