На прошлой неделе я получил в свои руки новейшую генеративную модель Google: Gemini 1.5, мультимодальное чудовище, которое может потреблять до часа видео, 11 часов аудио, 30 000 строк кода или 700 000 слов. Это большой шаг вперед с точки зрения длины контекста: Gemini принимает в 5 раз больше входных данных, чем его самый мощный предшественник, Claude 2.1.
Я с нетерпением ожидал наступления эры длинных контекстных окон не только потому, что они позволяют генеративным моделям решать совершенно новые виды проблем, но и потому, что они могут просто изменить способ разработки с помощью LLM. Но я забегаю вперед. Во-первых, позвольте мне поделиться с вами некоторыми из моих любимых экспериментов Gemini 1.5.
Видео
Семейный видеоархив AI 2.0
Еще в каменном веке, то есть в 2020 году, я посвятил месяц своей жизни созданию семейного видеоархива на базе искусственного интеллекта. Идея заключалась в том, чтобы использовать машинное обучение (распознавание изображений, преобразование речи в текст, встраивание и т. д.) для создания того, что по сути было поиском Google, но для моего личного семейного видеоархива. Это сработало, но между креслом и клавиатурой был изъян: я не знал, что искать. Столько часов видео, снятого так давно! О каких драгоценных семейных моментах я совершенно забыл или был слишком молод, чтобы вообще иметь воспоминания?
Введите Близнецы 1.5. Одним из самых первых, что я загрузил этому плохому парню, было часовое семейное видео 1996 года. В отличие от моего исходного архива ИИ, на создание которого ушёл месяц, на настройку этого эксперимента ушло всего несколько минут, и большую часть этого времени было потрачено на загрузку и конвертацию видео в нужный формат. Я загрузил семейное видео на Google Диск, вставил его в командную строку, а затем добавил текст инструкции:
Summarize this family video. Create a bulleted list with a brief
description summarizing every scene. Make sure not to forget any scenes,
and pay careful attention to make sure you're very accurate.
И это сработало!
По большей части. Все эти сцены действительно являются фрагментами моего видео и расположены в правильном порядке. Близнецы пропустили одну или две сцены, поэтому я наполнил свою подсказку уточнениями вроде: «Следите за тем, чтобы не забыть ни одной сцены». В целом, я был впечатлен. Шансы на то, что я просмотрю это часовое видео от начала до конца, были равны нулю, поэтому было приятно, что Близнецы показали мне основные моменты.