Исследовать
На пути к более мультимодальным, надежным и общим системам искусственного интеллекта
На следующей неделе ознаменуется начало 37-й ежегодной конференции по нейронным системам обработки информации (NeurIPS), крупнейшей конференции по искусственному интеллекту (ИИ) в мире. NeurIPS 2023 пройдет 10-16 декабря в Новом Орлеане, США.
Команды Google DeepMind представят более 180 докладов на основной конференции и семинарах.
Мы будем демонстрировать демо-версии наших передовых моделей искусственного интеллекта для глобального прогнозирования погоды, поиска материалов и нанесения водяных знаков на контент, созданный искусственным интеллектом. Также будет возможность услышать мнение команды, создавшей Gemini, нашу крупнейшую и наиболее эффективную модель искусственного интеллекта.
Вот некоторые из основных результатов наших исследований:
Мультимодальность: язык, видео, действие
UniSim — универсальный симулятор взаимодействия в реальном мире.
Генеративные модели искусственного интеллекта могут создавать картины, сочинять музыку и писать рассказы. Но какими бы способными ни были эти модели в одной среде, большинству из них трудно перенести эти навыки в другую. Мы углубляемся в то, как генеративные способности могут помочь в обучении в разных модальностях. В обзорной презентации мы покажем, что диффузионные модели можно использовать для классификации изображений без необходимости дополнительного обучения. Модели диффузии, такие как Imagen, классифицируют изображения более человеческим образом, чем другие модели, полагаясь на формы, а не на текстуры. Более того, мы показываем, как простое предсказание подписей по изображениям может улучшить обучение компьютерному зрению. Наш подход превзошел существующие методы решения зрительных и языковых задач и показал больший потенциал для масштабирования.
Больше мультимодальных моделей может уступить место более полезным цифровым и роботизированным помощникам, помогающим людям в их повседневной жизни. В рекламном плакате мы создаем агентов, которые могут взаимодействовать с цифровым миром так же, как это делают люди — с помощью снимков экрана, а также действий с помощью клавиатуры и мыши. Отдельно мы показываем, что, используя создание видео, включая субтитры и субтитры, модели могут передавать знания, прогнозируя планы видео для реальных действий робота.
Одной из следующих вех может стать создание реалистичного опыта в ответ на действия, выполняемые людьми, роботами и другими типами интерактивных агентов. Мы продемонстрируем демо-версию UniSim, нашего универсального симулятора взаимодействия в реальном мире. Этот тип технологии может найти применение в различных отраслях: от видеоигр и кино до обучения агентов для реального мира.
Создание безопасного и понятного ИИ
Художественная иллюстрация искусственного интеллекта (ИИ). На этом изображении изображено исследование безопасности ИИ. Он был создан художником Кьяти Треханом в рамках проекта Visualizing AI, запущенного Google DeepMind.
Большие языковые модели могут генерировать впечатляющие ответы, но склонны к «галлюцинациям» — тексту, который кажется правильным, но выдуман. Наши исследователи ставят вопрос о том, может ли метод определения места хранения факта (локализация) позволить редактировать факт. Удивительно, но они обнаружили, что локализация факта и редактирование местоположения не редактируют факт, намекая на сложность понимания и контроля хранимой информации в LLM. С помощью Tracr мы предлагаем новый способ оценки методов интерпретируемости путем перевода удобочитаемых программ в модели преобразователей. Мы открыли исходный код версии Tracr, которая может служить основой для оценки методов интерпретируемости.
При разработке и развертывании больших моделей конфиденциальность должна обеспечиваться на каждом этапе. В целях обучения наши команды изучают, как измерить, запоминают ли языковые модели данные, чтобы защитить частные и конфиденциальные материалы. Параллельно наши исследователи демонстрируют, как оценить обучение с сохранением конфиденциальности с помощью метода, достаточно эффективного для использования в реальных условиях. В другом устном докладе наши ученые исследуют ограничения обучения с использованием моделей «ученик» и «учитель», которые имеют разные уровни доступа и уязвимости в случае нападения.
Новые способности
Художественная иллюстрация искусственного интеллекта (ИИ). На этом изображении изображен общий искусственный интеллект (AGI). Он был создан Novoto Studio в рамках проекта Visualizing AI, запущенного Google DeepMind.
Поскольку большие модели становятся более функциональными, наши исследования расширяют границы новых возможностей для разработки более общих систем искусственного интеллекта.
Хотя языковые модели используются для общих задач, им не хватает необходимого исследовательского и контекстуального понимания для решения более сложных проблем. Мы представляем «Древо мыслей» — новую структуру вывода языковых моделей, которая помогает моделям исследовать и рассуждать над широким спектром возможных решений. Организуя рассуждения и планирование в виде дерева вместо обычно используемой плоской цепочки мыслей, мы демонстрируем, что языковая модель способна гораздо точнее решать сложные задачи, такие как «игра 24».
Чтобы помочь людям решать проблемы и находить то, что они ищут, модели ИИ должны эффективно обрабатывать миллиарды уникальных значений. При мультиплексировании функций одно пространство представления используется для множества различных функций, что позволяет масштабировать большие модели внедрения (LEM) до продуктов для миллиардов пользователей.
Наконец, с помощью DoReMi мы показываем, как использование ИИ для автоматизации сочетания типов обучающих данных может значительно ускорить обучение языковой модели и повысить производительность при выполнении новых и ранее невиданных задач.
Содействие глобальному сообществу искусственного интеллекта
Мы гордимся тем, что спонсируем NeurIPS и поддерживаем семинары, проводимые LatinX по искусственному интеллекту, QueerInAI и Women In ML, помогая развивать исследовательское сотрудничество и развивать разнообразное сообщество искусственного интеллекта и машинного обучения. В этом году NeurIPS представит творческий трек, посвященный нашему проекту «Визуализация ИИ», который поручает художникам создавать более разнообразные и доступные представления ИИ.
Если вы посещаете NeurIPS, приходите к нашему стенду, чтобы узнать больше о наших передовых исследованиях и встретиться с нашими командами, которые проводят семинары и делают презентации на конференции.