Поскольку автономные системы и искусственный интеллект становятся все более распространенными в повседневной жизни, появляются новые методы, помогающие людям проверить, что эти системы ведут себя так, как ожидается. Один метод, называемый формальными спецификациями, использует математические формулы, которые можно перевести в выражения естественного языка. Некоторые исследователи утверждают, что этот метод можно использовать для описания решений, которые будет принимать ИИ, в понятной для людей форме.
Исследователи Лаборатории Линкольна Массачусетского технологического института хотели проверить подобные заявления об интерпретируемости. Их результаты указывают на обратное: формальные спецификации, похоже, не поддаются интерпретации людьми. В исследовании команды участников попросили проверить, будет ли план агента ИИ успешным в виртуальной игре. Получив формальную спецификацию плана, участники оказались правы менее чем в половине случаев.
«Результаты являются плохой новостью для исследователей, которые утверждают, что формальные методы придают системам интерпретируемость. Это может быть верно в каком-то ограниченном и абстрактном смысле, но не для чего-либо близкого к практической проверке системы», — говорит Осия Сиу, исследователь из лаборатория AI Technology Group. Доклад группы был принят к участию в Международной конференции по интеллектуальным роботам и системам 2023 года, состоявшейся ранее в этом месяце.
Интерпретируемость важна, потому что она позволяет людям доверять машине при ее использовании в реальном мире. Если робот или ИИ смогут объяснить свои действия, тогда люди смогут решить, нуждаются ли они в корректировке или им можно доверять в принятии справедливых решений. Интерпретируемая система также позволяет пользователям технологии, а не только разработчикам, понимать ее возможности и доверять им. Однако интерпретируемость уже давно является проблемой в области ИИ и автономии. Процесс машинного обучения происходит в «черном ящике», поэтому разработчики моделей часто не могут объяснить, почему и как система пришла к определенному решению.
«Когда исследователи говорят: «Наша система машинного обучения точна», мы спрашиваем: «Насколько точна?» и «использование каких данных?» и если эта информация не предоставлена, мы отклоняем это утверждение. Мы не так уж много делаем, когда исследователи говорят, что «наша система машинного обучения интерпретируема», и нам нужно начать подвергать эти утверждения более тщательному изучению», — говорит Сиу. .
Утрачено при переводе
В ходе своего эксперимента исследователи стремились определить, делают ли формальные спецификации поведение системы более интерпретируемым. Они сосредоточились на способности людей использовать такие спецификации для проверки системы, то есть понять, всегда ли система соответствует целям пользователя.
Применение формальных спецификаций для этой цели, по сути, является побочным продуктом их первоначального использования. Формальные спецификации являются частью более широкого набора формальных методов, которые используют логические выражения в качестве математической основы для описания поведения модели. Поскольку модель построена на логическом потоке, инженеры могут использовать «проверщики модели» для математического доказательства фактов о системе, в том числе о том, возможно или невозможно для системы выполнить задачу. Теперь исследователи пытаются использовать эту же структуру в качестве инструмента перевода для людей.
«Исследователи путают тот факт, что формальные спецификации имеют точную семантику, с тем, что они могут быть интерпретированы человеком. Это не одно и то же», — говорит Сиу. «Мы поняли, что почти никто не проверял, действительно ли люди поняли результаты».
В эксперименте команды участникам было предложено проверить довольно простой набор действий с роботом, играющим в игру с захватом флага, по сути отвечая на вопрос: «Если робот точно следует этим правилам, всегда ли он побеждает?»
Среди участников были как эксперты, так и неспециалисты в формальных методах. Они получили формальные спецификации тремя способами — «сырую» логическую формулу, формулу, переведенную в слова, более близкие к естественному языку, и формат дерева решений. Деревья решений, в частности, часто рассматриваются в мире ИИ как интерпретируемый человеком способ продемонстрировать принятие решений ИИ или роботом.
Результаты: «Производительность проверки в целом была ужасной: точность около 45 процентов, независимо от типа презентации», — говорит Сиу.
Уверенно ошибаюсь
Те, кто ранее обучался формальным спецификациям, справились лишь немного лучше, чем новички. Однако эксперты сообщили о гораздо большей уверенности в своих ответах, независимо от того, правильные они или нет. По всем направлениям люди были склонны чрезмерно доверять правильности представленных им спецификаций, а это означало, что они игнорировали наборы правил, допускающих проигрыши в игре. По словам исследователей, эта предвзятость подтверждения особенно касается проверки системы, поскольку люди с большей вероятностью упускают из виду виды сбоев.
«Мы не думаем, что этот результат означает, что нам следует отказаться от формальных спецификаций как способа объяснения поведения системы людям. рабочий процесс, в котором люди их используют», — добавляет Сиу.
Размышляя о том, почему результаты были такими плохими, Сиу признает, что даже люди, работающие над формальными методами, не совсем обучены проверять спецификации, как того требовал эксперимент. И продумать все возможные последствия набора правил сложно. Несмотря на это, наборы правил, показанные участникам, были короткими, эквивалентными не более чем абзацу текста, «намного короче, чем все, что вы могли бы встретить в любой реальной системе», — говорит Сиу.
Команда не пытается напрямую связать свои результаты с работой людей при проверке роботов в реальных условиях. Вместо этого они стремятся использовать результаты в качестве отправной точки для рассмотрения того, что сообщество формальной логики может упускать из виду, заявляя об интерпретируемости, и как такие утверждения могут проявиться в реальном мире.
Это исследование было проведено в рамках более крупного проекта, над которым Сиу и его коллеги работают над улучшением отношений между роботами и людьми-операторами, особенно в армии. Процесс программирования робототехники часто может оставить операторов в стороне. Преследуя аналогичную цель — улучшить интерпретируемость и доверие, проект пытается позволить операторам напрямую обучать роботов задачам, аналогично обучению людей. Такой процесс может повысить как уверенность оператора в роботе, так и его адаптируемость.
В конечном итоге они надеются, что результаты этого исследования и продолжающихся исследований помогут улучшить применение автономии, поскольку она все больше внедряется в человеческую жизнь и процесс принятия решений.
«Наши результаты указывают на необходимость проведения человеческой оценки определенных систем и концепций автономии и ИИ, прежде чем будет сделано слишком много заявлений об их полезности для людей», — добавляет Сиу.