1.5 Flash превосходно справляется с подведением итогов, приложениями для чата, субтитрами к изображениям и видео, извлечением данных из длинных документов и таблиц и многим другим. Это связано с тем, что 1.5 Pro обучил его с помощью процесса, называемого «дистилляция», при котором наиболее важные знания и навыки из более крупной модели переносятся в меньшую, более эффективную модель.
Узнайте больше о 1.5 Flash в нашем обновленном техническом отчете Gemini 1.5 на странице технологии Gemini, а также узнайте о доступности и ценах 1.5 Flash.
Значительное улучшение 1.5 Pro
За последние несколько месяцев мы значительно улучшили 1.5 Pro, нашу лучшую модель по общей производительности при выполнении широкого спектра задач.
Помимо расширения контекстного окна до 2 миллионов токенов, мы улучшили генерацию кода, логическое рассуждение и планирование, многоходовой диалог, а также понимание аудио и изображений за счет усовершенствований в области данных и алгоритмов. Мы видим значительное улучшение государственных и внутренних показателей по каждой из этих задач.
1.5 Pro теперь может следовать все более сложным и тонким инструкциям, в том числе тем, которые определяют поведение на уровне продукта, включая роль, формат и стиль. Мы улучшили контроль над ответами модели для конкретных случаев использования, таких как создание личности и стиля ответа агента чата или автоматизация рабочих процессов с помощью нескольких вызовов функций. И мы позволили пользователям управлять поведением модели, устанавливая системные инструкции.
Мы добавили понимание звука в Gemini API и Google AI Studio, поэтому теперь 1.5 Pro может анализировать изображения и аудио для видео, загруженных в Google AI Studio. И сейчас мы интегрируем версию 1.5 Pro в продукты Google, включая Gemini Advanced и в приложения Workspace.
Узнайте больше о 1.5 Pro в нашем обновленном техническом отчете Gemini 1.5 и на странице технологии Gemini.
Gemini Nano понимает мультимодальные входные данные
Gemini Nano выходит за рамки простого ввода текста и включает в себя также изображения. Начиная с Pixel, приложения, использующие Gemini Nano с мультимодальностью, смогут понимать мир так, как это делают люди — не только через текст, но также через зрение, звук и устную речь.
Узнайте больше о Gemini 1.0 Nano для Android.