Чтобы создать системы искусственного интеллекта, которые смогут эффективно сотрудничать с людьми, для начала полезно иметь хорошую модель человеческого поведения. Но люди склонны вести себя неоптимально при принятии решений.
Эта иррациональность, которую особенно сложно моделировать, часто сводится к вычислительным ограничениям. Человек не может десятилетиями думать об идеальном решении одной-единственной проблемы.
Исследователи из Массачусетского технологического института и Вашингтонского университета разработали способ моделирования поведения агента, будь то человека или машины, который учитывает неизвестные вычислительные ограничения, которые могут препятствовать способности агента решать проблемы.
Их модель может автоматически сделать вывод о вычислительных ограничениях агента, увидев всего лишь несколько следов его предыдущих действий. Результат, так называемый «бюджет вывода» агента, можно использовать для прогнозирования будущего поведения этого агента.
В новой статье исследователи демонстрируют, как их метод можно использовать для определения чьих-либо целей навигации на основе предыдущих маршрутов и для прогнозирования последующих ходов игроков в шахматных матчах. Их метод соответствует или превосходит другой популярный метод моделирования такого типа принятия решений.
В конечном счете, эта работа может помочь ученым научить системы ИИ тому, как ведут себя люди, что позволит этим системам лучше реагировать на своих коллег-людей. Способность понимать поведение человека, а затем на основе этого поведения делать выводы об его целях может сделать помощника ИИ гораздо более полезным, говорит Атул Пол Джейкоб, аспирант электротехники и информатики (EECS) и ведущий автор статьи о эта техника.
«Если мы знаем, что человек собирается совершить ошибку, увидев, как он вел себя раньше, агент ИИ может вмешаться и предложить лучший способ сделать это. Или агент может адаптироваться к слабостям своих сотрудников-людей. Возможность моделировать человеческое поведение — важный шаг на пути к созданию агента ИИ, который действительно сможет помочь этому человеку», — говорит он.
Джейкоб написал статью вместе с Абхишеком Гуптой, доцентом Вашингтонского университета, и старшим автором Джейкобом Андреасом, доцентом EECS и членом Лаборатории компьютерных наук и искусственного интеллекта (CSAIL). Исследование будет представлено на Международной конференции по обучению представлений.
Моделирование поведения
Исследователи десятилетиями создавали вычислительные модели человеческого поведения. Многие предшествующие подходы пытаются учесть неоптимальные решения, добавляя в модель шум. Вместо того, чтобы агент всегда выбирал правильный вариант, в модели можно было бы предусмотреть, чтобы этот агент делал правильный выбор в 95 процентах случаев.
Однако эти методы могут не учитывать тот факт, что люди не всегда вести себя неоптимально таким же образом.
Другие сотрудники Массачусетского технологического института также изучали более эффективные способы планирования и определения целей в условиях принятия неоптимальных решений.
Для построения своей модели Джейкоб и его коллеги черпали вдохновение из предыдущих исследований шахматистов. Они заметили, что игрокам требуется меньше времени на размышления, прежде чем действовать, делая простые ходы, и что более сильные игроки, как правило, тратят больше времени на планирование, чем более слабые, в сложных матчах.
«В конце концов мы увидели, что глубина планирования или то, как долго кто-то думает над проблемой, является действительно хорошим показателем того, как ведут себя люди», — говорит Джейкоб.
Они создали структуру, которая могла сделать вывод о глубине планирования агента на основе предыдущих действий и использовать эту информацию для моделирования процесса принятия решений агентом.
Первый шаг в их методе включает запуск алгоритма в течение определенного периода времени для решения изучаемой проблемы. Например, если они изучают шахматную партию, они могут позволить алгоритму игры в шахматы выполнить определенное количество шагов. В конце исследователи могут увидеть решения, принимаемые алгоритмом на каждом этапе.
Их модель сравнивает эти решения с поведением агента, решающего ту же проблему. Он согласует решения агента с решениями алгоритма и определит шаг, на котором агент прекратил планирование.
Исходя из этого, модель может определить бюджет вывода агента или то, как долго этот агент будет планировать решение этой проблемы. Он может использовать бюджет вывода, чтобы предсказать, как этот агент отреагирует при решении аналогичной проблемы.
Интерпретируемое решение
Этот метод может быть очень эффективным, поскольку исследователи могут получить доступ ко всему набору решений, принятых алгоритмом решения проблем, не выполняя никакой дополнительной работы. Эту структуру также можно применить к любой проблеме, которую можно решить с помощью определенного класса алгоритмов.
«Для меня самым поразительным было то, что этот бюджетный вывод очень легко интерпретируется. Он говорит о том, что более сложные проблемы требуют большего планирования или что быть сильным игроком означает планировать дольше. Когда мы впервые решили это сделать, мы не думали, что наш алгоритм сможет естественным образом уловить такое поведение», — говорит Джейкоб.
Исследователи проверили свой подход в трех различных задачах моделирования: определение целей навигации на основе предыдущих маршрутов, угадывание чьих-либо коммуникативных намерений по их вербальным сигналам и прогнозирование последующих ходов в шахматных матчах между людьми.
Их метод либо соответствовал, либо превосходил популярную альтернативу в каждом эксперименте. Более того, исследователи увидели, что их модель человеческого поведения хорошо сочетается с показателями навыков игрока (в шахматных матчах) и сложности задач.
В дальнейшем исследователи хотят использовать этот подход для моделирования процесса планирования в других областях, таких как обучение с подкреплением (метод проб и ошибок, обычно используемый в робототехнике). В долгосрочной перспективе они намерены продолжать эту работу для достижения более крупной цели — разработки более эффективных ИИ-соавторов.
Эта работа была частично поддержана программой Колледжа вычислительного искусственного интеллекта Массачусетского технологического института им. Шварцмана и Национальным научным фондом.