Подписи к диаграммам, объясняющие сложные тенденции и закономерности, важны для улучшения способности читателя понимать и запоминать представляемые данные. А для людей с нарушениями зрения информация в подписи часто является единственным средством понимания диаграммы.
Но написание эффективных, подробных подписей — трудоемкий процесс. Хотя методы автосубтитров могут облегчить это бремя, они часто затрудняют описание когнитивных функций, которые обеспечивают дополнительный контекст.
Чтобы помочь людям создавать высококачественные подписи к диаграммам, исследователи Массачусетского технологического института разработали набор данных для улучшения автоматических систем подписей. Используя этот инструмент, исследователи могли научить модель машинного обучения изменять уровень сложности и тип содержимого, включенного в заголовок диаграммы, в зависимости от потребностей пользователей.
Исследователи Массачусетского технологического института обнаружили, что модели машинного обучения, обученные автозаголовку с их набором данных, постоянно генерировали точные, семантически богатые подписи и описывали тенденции данных и сложные закономерности. Количественный и качественный анализы показали, что их модели снабжают диаграммы более эффективными подписями, чем другие системы автозаголовков.
Цель команды состоит в том, чтобы предоставить набор данных под названием VisText в качестве инструмента, который исследователи могут использовать, работая над сложной проблемой автозаголовков диаграмм. Эти автоматические системы могут помочь в создании подписей к онлайн-диаграммам без подписей и улучшить доступность для людей с нарушениями зрения, говорит соавтор Энджи Боггуст, аспирант электротехники и компьютерных наук в Массачусетском технологическом институте и член группы визуализации в области компьютерных наук и компьютерных наук. Лаборатория искусственного интеллекта (CSAIL).
«Мы пытались внедрить множество человеческих ценностей в наш набор данных, чтобы, когда мы и другие исследователи строим автоматические системы подписей к диаграммам, мы не получали модели, которые не являются тем, что люди хотят или не нуждаются», — сказала она. говорит.
К Боггусту в работе над документом присоединились соавтор и аспирант Бенни Дж. Танг и старший автор Арвинд Сатьянараян, доцент компьютерных наук в Массачусетском технологическом институте, который возглавляет группу визуализации в CSAIL. Исследование будет представлено на ежегодном собрании Ассоциации компьютерной лингвистики.
Анализ, ориентированный на человека
На разработку VisText исследователей вдохновила предыдущая работа группы визуализации, которая исследовала, что делает хорошую подпись к диаграмме. В этом исследовании исследователи обнаружили, что зрячие пользователи и слепые или слабовидящие пользователи по-разному отдают предпочтение сложности семантического содержания подписи.
Группа хотела внедрить анализ, ориентированный на человека, в исследование автотитров. Для этого они разработали VisText, набор данных диаграмм и связанных надписей, который можно использовать для обучения моделей машинного обучения для создания точных, семантически богатых, настраиваемых надписей.
Разработка эффективных систем автосубтитров — непростая задача. Существующие методы машинного обучения часто пытаются подписывать диаграммы так же, как изображения, но люди и модели интерпретируют естественные изображения не так, как мы читаем диаграммы. Другие методы полностью пропускают визуальный контент и подписывают диаграмму, используя ее базовую таблицу данных. Однако такие таблицы данных часто недоступны после публикации диаграмм.
Учитывая недостатки использования изображений и таблиц данных, VisText также представляет диаграммы в виде графов сцен. Графики сцен, которые можно извлечь из изображения диаграммы, содержат все данные диаграммы, но также включают дополнительный контекст изображения.
«График сцены — это лучшее из обоих миров — он содержит почти всю информацию, присутствующую в изображении, и его легче извлечь из изображений, чем из таблиц данных. Поскольку это также текст, мы можем использовать достижения современных моделей больших языков для создания субтитров», — объясняет Танг.
Они составили набор данных, который содержит более 12 000 диаграмм, каждая из которых представлена в виде таблицы данных, изображения и графика сцены, а также связанных подписей. Каждая диаграмма имеет два отдельных заголовка: заголовок нижнего уровня, описывающий конструкцию диаграммы (например, диапазоны ее осей), и заголовок более высокого уровня, описывающий статистику, отношения в данных и сложные тенденции.
Исследователи создавали подписи низкого уровня с помощью автоматизированной системы и собирали подписи более высокого уровня от людей.
«Наши подписи были основаны на двух ключевых элементах предыдущего исследования: существующих рекомендациях по доступным описаниям визуальных медиа и концептуальной модели нашей группы для категоризации семантического контента. Это гарантировало, что наши подписи будут содержать важные низкоуровневые элементы диаграммы, такие как оси, шкалы и единицы измерения для читателей с нарушениями зрения, сохраняя при этом человеческую вариативность в том, как могут быть написаны подписи», — говорит Тан.
Перевод диаграмм
После того, как они собрали изображения и подписи к диаграммам, исследователи использовали VisText для обучения пяти моделей машинного обучения автоподписи. Они хотели увидеть, как каждое представление — изображение, таблица данных и график сцены — и комбинации представлений влияют на качество подписи.
«Модель подписей к диаграммам можно рассматривать как модель языкового перевода. Но вместо того, чтобы сказать «переведите этот немецкий текст на английский», мы говорим «переведите этот «язык диаграмм» на английский», — говорит Боггуст.
Их результаты показали, что модели, обученные с помощью графов сцен, работают так же или даже лучше, чем модели, обученные с использованием таблиц данных. Поскольку графы сцен легче извлекать из существующих диаграмм, исследователи утверждают, что они могут быть более полезным представлением.
Они также обучали модели с низкоуровневыми и высокоуровневыми надписями отдельно. Этот метод, известный как семантическая настройка префикса, позволил им научить модель изменять сложность содержимого подписи.
Кроме того, они провели качественное исследование подписей, созданных их наиболее эффективным методом, и классифицировали шесть типов распространенных ошибок. Например, ошибка направления возникает, если модель говорит, что тренд уменьшается, хотя на самом деле он увеличивается.
Эта детальная, надежная качественная оценка была важна для понимания того, как модель допускала ошибки. Например, при использовании количественных методов ошибка направления может повлечь за собой такое же наказание, как и ошибка повторения, когда модель повторяет одно и то же слово или фразу. Но ошибка направления может ввести пользователя в заблуждение больше, чем ошибка повторения. Качественный анализ помог им понять эти тонкости, говорит Боггуст.
Такого рода ошибки также обнажают ограничения существующих моделей и поднимают этические вопросы, которые исследователи должны учитывать при разработке систем автосубтитров, добавляет она.
Было показано, что генеративные модели машинного обучения, такие как те, что используются в ChatGPT, галлюцинируют или дают неверную информацию, которая может ввести в заблуждение. Несмотря на то, что использование этих моделей для автозаголовков существующих диаграмм имеет явные преимущества, это может привести к распространению дезинформации, если диаграммы снабжены неправильными заголовками.
«Возможно, это означает, что мы не просто записываем все, что видим, с помощью ИИ. Вместо этого, возможно, мы предоставляем эти системы автосубтитров в качестве авторских инструментов, которые люди могут редактировать. Важно думать об этих этических последствиях на протяжении всего процесса исследования, а не только в конце, когда у нас есть модель для развертывания», — говорит она.
Боггуст, Танг и их коллеги хотят продолжить оптимизацию моделей, чтобы уменьшить количество распространенных ошибок. Они также хотят расширить набор данных VisText, включив в него больше диаграмм и более сложные диаграммы, например, со сложенными столбцами или несколькими линиями. И они также хотели бы получить представление о том, что эти модели автосубтитров на самом деле узнают о данных диаграммы.
Это исследование было поддержано, в частности, премией Google Research Scholar Award, Национальным научным фондом, инициативой MLA@CSAIL и Исследовательской лабораторией ВВС США.