Еще до получения докторской степени в области компьютерных наук в Массачусетском технологическом институте в 2017 году Марзие Гассеми уже начал задаваться вопросом, может ли использование методов ИИ усилить предубеждения, которые уже существовали в здравоохранении. Она была одним из первых исследователей, взявшихся за эту проблему, и с тех пор занимается ею. В новой статье Гассеми, ныне доцент кафедры электротехники и инженерии Массачусетского технологического института (EECS), и трое сотрудников из Лаборатории компьютерных наук и искусственного интеллекта исследовали причины несоответствий, которые могут возникнуть в машинном обучении. Часто модели, которые в целом работают хорошо, дают сбои, когда речь идет о подгруппах, для которых было собрано и использовано относительно мало данных в процессе обучения. Статья, написанная двумя аспирантами Массачусетского технологического института, Южэ Яном и Хаораном Чжаном, специалистом по информатике EECS Диной Катаби (профессор Туан и Николь Фам) и Гассеми, была представлена в прошлом месяце на 40-й Международной конференции по машинному обучению в Гонолулу, Гавайи.
В своем анализе исследователи сосредоточились на «сменах субпопуляций» — различиях в том, как модели машинного обучения работают для одной подгруппы по сравнению с другой. «Мы хотим, чтобы модели были справедливыми и одинаково хорошо работали для всех групп, но вместо этого мы постоянно наблюдаем наличие сдвигов среди разных групп, что может привести к ухудшению медицинской диагностики и лечения», — говорит Ян, который вместе с Чжаном является двумя ведущими авторов на бумаге. Основная цель их исследования состоит в том, чтобы определить виды сдвигов субпопуляций, которые могут произойти, и раскрыть механизмы, стоящие за ними, чтобы в конечном итоге можно было разработать более справедливые модели.
Новая статья «значительно продвигает наше понимание» феномена субпопуляционного сдвига, утверждает специалист по информатике из Стэнфордского университета Санми Коеджо. «Это исследование дает ценную информацию для будущих улучшений в производительности моделей машинного обучения для недостаточно представленных подгрупп».
Верблюды и крупный рогатый скот
Группа Массачусетского технологического института определила четыре основных типа сдвигов — ложные корреляции, дисбаланс атрибутов, дисбаланс классов и обобщение атрибутов, — которые, по словам Янга, «никогда не объединялись в согласованную и единую структуру. Мы придумали одно уравнение, которое показывает, откуда могут возникнуть предубеждения».
На самом деле предубеждения могут быть связаны с тем, что исследователи называют классом, или с атрибутом, или с тем и другим. В качестве простого примера предположим, что задача, поставленная перед моделью машинного обучения, состоит в том, чтобы отсортировать изображения объектов — в данном случае животных — по двум классам: коровы и верблюды. Атрибуты — это дескрипторы, которые не имеют прямого отношения к самому классу. Может оказаться, например, что на всех изображениях, использованных в анализе, изображены коровы, стоящие на траве, и верблюды на песке — трава и песок здесь являются атрибутами. Учитывая доступные ей данные, машина могла прийти к ошибочному выводу, а именно, что коров можно найти только на траве, а не на песке, в то время как для верблюдов верно обратное. Однако такой вывод был бы неверным, поскольку привел бы к ложной корреляции, которая, как объясняет Ян, является «особым случаем» среди сдвигов субпопуляций — «такой, в котором у вас есть предвзятость как по классу, так и по атрибуту».
В медицинских учреждениях можно было бы полагаться на модели машинного обучения, чтобы определить, есть ли у человека пневмония, на основе изучения рентгеновских снимков. В этой ситуации будет два класса: один состоит из людей с заболеванием легких, а другой – из тех, у кого нет инфекции. Относительно простой случай включает всего два атрибута: люди, которым делают рентген, либо женщины, либо мужчины. Если бы в этом конкретном наборе данных на каждую женщину с диагнозом пневмония приходилось 100 мужчин с диагнозом пневмония, это могло бы привести к дисбалансу атрибутов, и модель, вероятно, лучше справилась бы с задачей правильного выявления пневмонии у мужчин, чем у женщин. . Точно так же наличие в 1000 раз большего количества здоровых (без пневмонии) субъектов, чем больных, приведет к дисбалансу классов, и модель будет смещена в сторону здоровых случаев. Обобщение атрибутов — это последний сдвиг, отмеченный в новом исследовании. Если ваша выборка содержала 100 пациентов мужского пола с пневмонией и ноль женщин с тем же заболеванием, вы все равно хотели бы, чтобы модель могла обобщать и делать прогнозы для субъектов женского пола, даже если в обучающих данных нет выборок для женщин с пневмонией.
Затем команда взяла 20 продвинутых алгоритмов, предназначенных для выполнения задач классификации, и протестировала их на дюжине наборов данных, чтобы увидеть, как они работают в разных группах населения. Они пришли к неожиданным выводам: улучшив «классификатор», который является последним слоем нейронной сети, они смогли уменьшить количество ложных корреляций и дисбаланса классов, но другие сдвиги не пострадали. Усовершенствования «кодировщика», одного из самых верхних слоев нейронной сети, могут уменьшить проблему дисбаланса атрибутов. «Однако, что бы мы ни делали с кодировщиком или классификатором, мы не увидели никаких улучшений с точки зрения обобщения атрибутов, — говорит Ян, — и мы пока не знаем, как с этим справиться».
Точно точный
Существует также вопрос оценки того, насколько хорошо ваша модель действительно работает с точки зрения беспристрастности среди различных групп населения. Обычно используемая метрика, называемая точностью наихудшей группы или WGA, основана на предположении, что если вы можете повысить точность, скажем, медицинского диагноза, для группы с наихудшими характеристиками модели, вы улучшите модель как целое. «WGA считается золотым стандартом в оценке подгрупп», — утверждают авторы, но они сделали удивительное открытие: повышение точности в наихудшей группе приводит к снижению того, что они называют «наихудшей точностью». При принятии медицинских решений любого рода необходимы как точность, которая говорит о достоверности результатов, так и точность, которая связана с надежностью методологии. «Точность и аккуратность — очень важные показатели в задачах классификации, особенно в медицинской диагностике», — объясняет Ян. «Вы никогда не должны менять точность на точность. Вам всегда нужно балансировать между ними».
Ученые Массачусетского технологического института применяют свои теории на практике. В исследовании, которое они проводят с медицинским центром, они изучают общедоступные наборы данных о десятках тысяч пациентов и сотнях тысяч рентгеновских снимков грудной клетки, пытаясь понять, могут ли модели машинного обучения работать в беспристрастном режиме. образом для всех слоев населения. Это все еще далеко не так, хотя эта проблема привлекла больше внимания, говорит Ян. «Мы обнаруживаем множество различий между разными возрастными, гендерными, этническими и интерсекционными группами».
Он и его коллеги соглашаются с конечной целью, которая состоит в том, чтобы добиться справедливости в медицинском обслуживании для всех групп населения. Но прежде чем мы сможем достичь этого, утверждают они, нам все еще нужно лучше понять источники несправедливости и то, как они проникают в нашу нынешнюю систему. Они признают, что реформирование системы в целом будет непростым делом. Фактически, название статьи, которую они представили на конференции в Гонолулу, «Перемены — это тяжело», дает некоторое представление о проблемах, с которыми сталкиваются они и исследователи-единомышленники.