Естественный язык передает идеи, действия, информацию и намерения через контекст и синтаксис; кроме того, в базах данных содержатся его объемы. Это делает его отличным источником данных для обучения систем машинного обучения. Две магистратуры инженерных специальностей, обучающихся по дипломной программе 6A MEng в Массачусетском технологическом институте, Ирен Терпстра ’23 года и Руджул Ганди ’22 года, работают с наставниками в лаборатории искусственного интеллекта MIT-IBM Watson AI Lab, чтобы использовать силу естественного языка для создания систем искусственного интеллекта.
Поскольку компьютеры становятся все более совершенными, исследователи стремятся улучшить аппаратное обеспечение, на котором они работают; это означает внедрение инноваций для создания новых компьютерных чипов. И поскольку уже доступна литература по модификациям, которые можно внести для достижения определенных параметров и производительности, Терпстра и ее наставники и советники Ананта Чандракасан, декан инженерной школы Массачусетского технологического института и профессор электротехники и информатики Ванневара Буша, а также исследователь IBM Синь Чжан разрабатывают алгоритм искусственного интеллекта, который помогает в проектировании чипов.
«Я создаю рабочий процесс для систематического анализа того, как эти языковые модели могут помочь в процессе проектирования схем. Какими способностями к рассуждению они обладают и как их можно интегрировать в процесс проектирования чипов?» — говорит Терпстра. «А с другой стороны, если это окажется достаточно полезным, [we’ll] посмотрим, смогут ли они автоматически спроектировать чипы самостоятельно, подключив их к алгоритму обучения с подкреплением».
Для этого команда Терпстры создает систему искусственного интеллекта, которая может повторять различные проекты. Это значит экспериментировать с различными предварительно обученными моделями большого языка (такими как ChatGPT, Llama 2 и Bard), используя язык симулятора схем с открытым исходным кодом под названием NGspice, который содержит параметры чипа в кодовой форме и алгоритм обучения с подкреплением. С помощью текстовых подсказок исследователи смогут задавать вопросы, как следует модифицировать физический чип для достижения определенной цели в языковой модели, и давать рекомендации по корректировкам. Затем это передается в алгоритм обучения с подкреплением, который обновляет схему схемы и выводит новые физические параметры чипа.
«Конечная цель — объединить возможности рассуждения и базу знаний, встроенную в эти большие языковые модели, и объединить их с оптимизационными возможностями алгоритмов обучения с подкреплением, чтобы спроектировать сам чип», — говорит Терпстра.
Руджул Ганди работает с самим языком. Будучи студенткой Массачусетского технологического института, Ганди изучала лингвистику и информатику, объединив их в своей работе по инженерному делу. «Меня интересовало общение как между людьми, так и между людьми и компьютерами», — говорит Ганди.
Роботы или другие интерактивные системы искусственного интеллекта — это одна из областей, в которой общение должно быть понятным как людям, так и машинам. Исследователи часто пишут инструкции для роботов, используя формальную логику. Это помогает гарантировать, что команды выполняются безопасно и по назначению, но формальная логика может быть трудной для понимания пользователями, в то время как естественный язык легко усваивается. Чтобы обеспечить бесперебойную связь, Ганди и ее советники Ян Чжан из IBM и доцент Массачусетского технологического института Чучу Фан создают синтаксический анализатор, который преобразует инструкции на естественном языке в удобную для машины форму. Используя лингвистическую структуру, закодированную предварительно обученной моделью кодера-декодера T5, и набор данных аннотированных основных английских команд для выполнения определенных задач, система Ганди идентифицирует мельчайшие логические единицы или атомарные предложения, которые присутствуют в данной инструкции.
«После того, как вы дали инструкции, модель определяет все более мелкие подзадачи, которые вы хотите, чтобы она выполняла», — говорит Ганди. «Затем, используя большую языковую модель, каждую подзадачу можно сравнить с доступными действиями и объектами в мире роботов, и если какая-либо подзадача не может быть выполнена из-за того, что определенный объект не распознается или действие невозможно, система может тут же остановиться и попросить пользователя о помощи».
Такой подход разбиения инструкций на подзадачи также позволяет ее системе понимать логические зависимости, выраженные на английском языке, например: «выполняйте задачу X, пока не произойдет событие Y». Ганди использует набор данных с пошаговыми инструкциями в различных областях задач роботов, таких как навигация и манипулирование, уделяя особое внимание домашним задачам. По ее словам, использование данных, записанных так, как люди общаются друг с другом, имеет много преимуществ, поскольку это означает, что пользователь может более гибко формулировать свои инструкции.
Другой проект Ганди предполагает разработку речевых моделей. В контексте распознавания речи некоторые языки считаются «низкоресурсными», поскольку на них может быть не так много транскрибированной речи или они могут вообще не иметь письменной формы. «Одной из причин, по которой я подала заявку на стажировку в Лабораторию искусственного интеллекта Watson MIT-IBM, был интерес к языковой обработке языков с низким уровнем ресурсов», — говорит она. «Многие языковые модели сегодня в значительной степени ориентированы на данные, и когда не так-то просто получить все эти данные, именно тогда вам нужно эффективно использовать ограниченные данные».
Речь — это всего лишь поток звуковых волн, но во время разговора люди могут легко понять, где начинаются и заканчиваются слова и мысли. При обработке речи и люди, и языковые модели используют существующий словарный запас, чтобы распознавать границы слов и понимать их значение. В языках с низким уровнем ресурсов или без них письменный словарь может вообще не существовать, поэтому исследователи не могут предоставить его в модель. Вместо этого модель может отметить, какие звуковые последовательности встречаются вместе чаще, чем другие, и сделать вывод, что это могут быть отдельные слова или понятия. В исследовательской группе Ганди эти предполагаемые слова затем собираются в псевдословарь, который служит методом маркировки для малоресурсного языка, создавая маркированные данные для дальнейших приложений.
Применение языковых технологий «практически повсюду», говорит Ганди. «Можно представить, что люди могут взаимодействовать с программным обеспечением и устройствами на своем родном языке, на своем родном диалекте. Вы можете себе представить улучшение всех голосовых помощников, которые мы используем. Можно представить, что его используют для перевода или устного перевода».