От предотвращения столкновений транспортных средств до систем планирования полетов и сетей электроснабжения — многие из услуг, на которые мы полагаемся, управляются компьютерами. По мере того как эти автономные системы становятся все более сложными и повсеместными, могут расти и способы, по которым они терпят неудачу.
Теперь инженеры MIT разработали подход, который можно использовать в любой автономной системе, чтобы быстро выявить ряд потенциальных сбоев в этой системе, прежде чем они будут развернуты в реальном мире. Более того, этот подход может найти исправления сбоев и предложить ремонт, чтобы избежать сбоев системы.
Команда показала, что этот подход может искоренить сбои в различных моделируемых автономных системах, включая малую и крупную электросетевую сеть, систему предотвращения столкновений самолетов, команду спасательных дронов и робот-манипулятор. В каждой из систем новый подход в виде автоматизированного алгоритма выборки быстро выявляет ряд вероятных сбоев, а также устраняет их во избежание этих сбоев.
Новый алгоритм отличается от других автоматических поисков, которые предназначены для выявления наиболее серьезных сбоев в системе. По словам команды, эти подходы могут пропустить более тонкие, но существенные уязвимости, которые может обнаружить новый алгоритм.
«На самом деле с этими более сложными системами может произойти целый ряд неприятностей», — говорит Чарльз Доусон, аспирант факультета аэронавтики и астронавтики Массачусетского технологического института. «Мы хотим иметь возможность доверять этим системам, которые будут управлять нами, управлять самолетом или управлять энергосистемой. Очень важно знать их пределы и в каких случаях они могут потерпеть неудачу».
Доусон и Чучу Фан, доцент кафедры аэронавтики и астронавтики Массачусетского технологического института, представляют свою работу на этой неделе на конференции по роботизированному обучению.
Чувствительность к противникам
В 2021 году крупный системный сбой в Техасе заставил Фэна и Доусона задуматься. В феврале того же года по штату прокатились зимние бури, принесшие неожиданно низкие температуры, которые вызвали сбои в энергосистеме. Кризис оставил без электричества более 4,5 миллионов домов и предприятий на несколько дней. Общесистемный сбой привел к худшему энергетическому кризису в истории Техаса.
«Это был довольно серьезный провал, который заставил меня задуматься, могли ли мы предсказать это заранее», — говорит Доусон. «Можем ли мы использовать наши знания физики электросети, чтобы понять, где могут быть ее слабые места, а затем нацелиться на обновления и исправления программного обеспечения, чтобы усилить эти уязвимости, прежде чем произойдет что-то катастрофическое?»
Работа Доусона и Фэна сосредоточена на роботизированных системах и поиске способов сделать их более устойчивыми в окружающей среде. Частично вызванные энергетическим кризисом в Техасе, они решили расширить сферу своей деятельности, выявлять и устранять сбои в других, более сложных, крупномасштабных автономных системах. Они поняли, что для этого им придется изменить традиционный подход к поиску ошибок.
Проектировщики часто проверяют безопасность автономных систем, выявляя их наиболее вероятные и наиболее серьезные неисправности. Они начинаются с компьютерного моделирования системы, которое представляет ее основную физику и все переменные, которые могут повлиять на поведение системы. Затем они запускают симуляцию с помощью алгоритма, который выполняет «состязательную оптимизацию» — подход, который автоматически оптимизируется для наихудшего сценария, внося небольшие изменения в систему снова и снова, пока не удастся сузить круг тех изменений, которые связаны с наиболее серьезными отказами.
«Сжимая все эти изменения в наиболее серьезный или вероятный сбой, вы теряете большую часть сложности поведения, которую вы могли видеть», — отмечает Доусон. «Вместо этого мы хотели уделить первоочередное внимание выявлению множества сбоев».
Для этого команда применила более «чувствительный» подход. Они разработали алгоритм, который автоматически генерирует случайные изменения внутри системы и оценивает чувствительность или потенциальный сбой системы в ответ на эти изменения. Чем более чувствительна система к определенному изменению, тем больше вероятность того, что это изменение будет связано с возможным сбоем.
Такой подход позволяет команде исключить более широкий спектр возможных сбоев. С помощью этого метода алгоритм также позволяет исследователям выявлять исправления, просматривая цепочку изменений, которые привели к конкретному сбою.
«Мы понимаем, что проблема действительно двойственна», — говорит Фань. «У медали есть две стороны. Если вы можете предсказать неудачу, вы должны быть в состоянии предсказать, что делать, чтобы избежать этой неудачи. Наш метод теперь замыкает этот цикл».
Скрытые неудачи
Команда протестировала новый подход на различных моделируемых автономных системах, включая малую и большую энергосистему. В этих случаях исследователи сочетали свой алгоритм с моделированием обобщенных электрических сетей регионального масштаба. Они показали, что в то время как традиционные подходы фокусируются на единственной линии электропередачи как наиболее уязвимой к сбоям, алгоритм команды обнаружил, что в сочетании с отказом второй линии может произойти полное отключение электроэнергии.
«Наш метод может обнаружить скрытые корреляции в системе», — говорит Доусон. «Поскольку мы лучше изучаем пространство сбоев, мы можем обнаружить все виды сбоев, которые иногда включают в себя даже более серьезные сбои, чем могут обнаружить существующие методы».
Исследователи показали столь же разнообразные результаты в других автономных системах, включая моделирование предотвращения столкновений самолетов и координацию спасательных дронов. Чтобы увидеть, оправдаются ли их прогнозы неудач в моделировании в реальности, они также продемонстрировали этот подход на роботизированном манипуляторе — роботизированной руке, которая предназначена для того, чтобы толкать и поднимать объекты.
Команда сначала запустила свой алгоритм на модели робота, которому было поручено оттолкнуть бутылку с дороги, не опрокидывая ее. Когда они прогнали тот же сценарий в лаборатории с настоящим роботом, они обнаружили, что он потерпел неудачу так, как предсказывал алгоритм — например, опрокинул его или не дотянулся до бутылки. Когда они применили предложенное алгоритмом исправление, робот успешно оттолкнул бутылку.
«Это показывает, что на самом деле эта система терпит неудачу, когда мы прогнозируем, и достигает успеха, когда мы этого ожидаем», — говорит Доусон.
В принципе, подход команды позволяет находить и устранять сбои в любой автономной системе, если она обеспечивает точное моделирование ее поведения. Доусон предполагает, что однажды этот подход можно будет превратить в приложение, которое дизайнеры и инженеры смогут загрузить и применить для настройки и улучшения своих собственных систем перед тестированием в реальном мире.
«Поскольку мы увеличиваем степень, в которой мы полагаемся на эти автоматизированные системы принятия решений, я думаю, что характер неудач изменится», — говорит Доусон. «Вместо механических сбоев внутри системы мы увидим больше сбоев, вызванных взаимодействием автоматизированного принятия решений и физического мира. Мы пытаемся объяснить этот сдвиг, выявляя различные типы сбоев и устраняя их сейчас».
Это исследование частично поддерживается НАСА, Национальным научным фондом и Управлением научных исследований ВВС США.