Вдохновленные прогрессом в крупномасштабном языковом моделировании, мы применяем аналогичный подход к созданию единого универсального агента за пределами области текстовых выходов. Агент, которого мы называем Гато, работает как многомодальная, многозадачная, многовариантная универсальная политика. В той же сети с теми же весами можно играть в Atari, записывать изображения, общаться в чате, складывать блоки с настоящей рукой робота и многое другое, решая на основе своего контекста, следует ли выводить текст, крутящие моменты в суставах, нажатия кнопок или другие токены.

На этапе обучения Gato данные из разных задач и модальностей сериализуются в плоскую последовательность токенов, группируются и обрабатываются нейронной сетью-преобразователем, аналогичной большой языковой модели. Потеря маскируется, поэтому Гато предсказывает только действия и текстовые цели.
-1.png)
При развертывании Gato подсказка, такая как демонстрация, токенизируется, образуя начальную последовательность. Затем среда дает первое наблюдение, которое также токенизируется и добавляется к последовательности. Гато авторегрессивно выбирает вектор действия, по одному токену за раз.
После того, как все маркеры, составляющие вектор действия, выбраны (определены спецификацией действия среды), действие декодируется и отправляется в среду, которая выполняет шаги и дает новое наблюдение. Затем процедура повторяется. Модель всегда видит все предыдущие наблюдения и действия в своем контекстном окне из 1024 токенов.

Гато обучается на большом количестве наборов данных, включающих опыт агентов как в смоделированных, так и в реальных средах, в дополнение к множеству наборов данных на естественном языке и изображениях. Здесь показано количество задач, в которых производительность предварительно обученной модели Гато превышает процент экспертной оценки, сгруппированных по областям.

На следующих изображениях также показано, как предварительно обученная модель Gato с теми же весами может создавать подписи к изображениям, участвовать в интерактивном диалоге и управлять манипулятором среди многих других задач.


