Исследовать
Разработка агентов искусственного интеллекта нового поколения, исследование новых методов и внедрение фундаментального обучения.
На следующей неделе исследователи искусственного интеллекта со всего мира соберутся на 12-й Международной конференции по обучающимся представлениям (ICLR), которая пройдет 7-11 мая в Вене, Австрия.
Райя Хадселл, вице-президент по исследованиям Google DeepMind, выступит с основным докладом о последних 20 годах работы в этой области, подчеркнув, как извлеченные уроки формируют будущее искусственного интеллекта на благо человечества.
Мы также проведем живые демонстрации, демонстрирующие, как мы воплощаем в жизнь наши фундаментальные исследования: от разработки робототехнических трансформеров до создания наборов инструментов и моделей с открытым исходным кодом, таких как Gemma.
В этом году команды Google DeepMind представят более 70 докладов. Некоторые основные моменты исследования:
Агенты по решению проблем и подходы, вдохновленные человеком
Большие языковые модели (LLM) уже произвели революцию в передовых инструментах искусственного интеллекта, но их полный потенциал остается неиспользованным. Например, агенты искусственного интеллекта на основе LLM, способные предпринимать эффективные действия, могут превратить цифровых помощников в более полезные и интуитивно понятные инструменты искусственного интеллекта.
Помощники искусственного интеллекта, которые следуют инструкциям на естественном языке для выполнения веб-задач от имени людей, сэкономят огромное количество времени. В устной презентации мы представляем WebAgent, агент, управляемый LLM, который на собственном опыте учится навигации и управлению сложными задачами на реальных веб-сайтах.
Чтобы еще больше повысить общую полезность выпускников LLM, мы сосредоточились на повышении их навыков решения проблем. Мы демонстрируем, как мы достигли этого, снабдив систему, основанную на LLM, традиционным человеческим подходом: производство и использование «инструментов». Отдельно мы представляем методику обучения, которая гарантирует, что языковые модели будут давать более последовательно социально приемлемые результаты. Наш подход использует пространство для репетиций в песочнице, которое представляет ценности общества.
Расширяя границы видения и кодирования
Наша модель Dynamic Scene Transformer (DyST) использует реальные видеоролики с одной камеры для извлечения трехмерных представлений объектов на сцене и их движений.
До недавнего времени крупные модели ИИ в основном фокусировались на тексте и изображениях, закладывая основу для крупномасштабного распознавания образов и интерпретации данных. Теперь эта область выходит за рамки этих статических сфер и охватывает динамику реальной визуальной среды. По мере повсеместного развития вычислений становится все более важным, чтобы лежащий в их основе код генерировался и оптимизировался с максимальной эффективностью.
Когда вы смотрите видео на плоском экране, вы интуитивно улавливаете трехмерность сцены. Однако машинам сложно имитировать эту способность без явного контроля. Мы демонстрируем нашу модель Dynamic Scene Transformer (DyST), которая использует реальные видео с одной камеры для извлечения трехмерных представлений объектов в сцене и их движений. Более того, DyST также позволяет создавать новые версии одного и того же видео с пользовательским контролем над ракурсами камеры и контентом.
Эмуляция когнитивных стратегий человека также способствует улучшению генераторов кода ИИ. Когда программисты пишут сложный код, они обычно «разлагают» задачу на более простые подзадачи. С ExeDec мы представляем новый подход к генерации кода, который использует подход декомпозиции для повышения производительности программирования и обобщения систем искусственного интеллекта.
В параллельном обзорном документе мы исследуем новое использование машинного обучения не только для генерации кода, но и для его оптимизации, представляя набор данных для надежного сравнительного анализа производительности кода. Оптимизация кода — сложная задача, требующая сложных рассуждений, а наш набор данных позволяет изучить ряд методов машинного обучения. Мы демонстрируем, что полученные стратегии обучения превосходят оптимизации кода, созданные человеком.
ExeDec представляет новый подход к генерации кода, который использует подход декомпозиции для повышения производительности программирования и обобщения систем искусственного интеллекта.
Продвижение базового обучения
Наши исследовательские группы решают важные вопросы ИИ — от изучения сущности машинного познания до понимания того, как обобщаются продвинутые модели ИИ, — а также работают над решением ключевых теоретических проблем.
И для людей, и для машин причинно-следственные рассуждения и способность предсказывать события являются тесно связанными понятиями. В обзорной презентации мы исследуем, как на обучение с подкреплением влияют цели обучения, основанные на прогнозировании, и проведем параллели с изменениями в активности мозга, также связанными с прогнозированием.
Когда агенты ИИ способны хорошо обобщать новые сценарии, происходит ли это потому, что они, как и люди, изучили основную причинно-следственную модель своего мира? Это критический вопрос в продвинутом ИИ. В устной презентации мы показываем, что такие модели действительно изучили приблизительную причинно-следственную модель процессов, которые привели к их обучающим данным, и обсуждаем глубокие последствия.
Еще один критический вопрос в области ИИ — доверие, которое отчасти зависит от того, насколько точно модели могут оценить неопределенность своих результатов — решающий фактор для надежного принятия решений. Мы добились значительных успехов в оценке неопределенности в рамках байесовского глубокого обучения, применив простой и практически бесплатный метод.
Наконец, мы исследуем равновесие Нэша (NE) в теории игр — состояние, в котором ни один игрок не получает выгоды от изменения своей стратегии, если другие сохраняют свою. Помимо простых игр для двух игроков, даже приближение к равновесию Нэша является вычислительно неразрешимой задачей, но в устной презентации мы раскрываем новые современные подходы к ведению переговоров по сделкам, от покера до аукционов.
Объединение сообщества ИИ
Мы рады спонсировать ICLR и поддерживать такие инициативы, как «Квир в искусственном интеллекте» и «Женщины в машинном обучении». Такие партнерства не только укрепляют исследовательское сотрудничество, но и способствуют формированию динамичного и разнообразного сообщества в области искусственного интеллекта и машинного обучения.
Если вы находитесь в ICLR, обязательно посетите наш стенд и наших коллег из Google Research по соседству. Откройте для себя наши новаторские исследования, познакомьтесь с нашими командами, проводящими семинары, и пообщайтесь с нашими экспертами, выступающими на протяжении всей конференции. Мы с нетерпением ждем возможности связаться с вами!