Подробное описание вариационных автоэнкодеров | GPTMain News

Модель состоит из трех подсетей:

Имея $x$ (изображение), закодируйте его в распределение по скрытому пространству — в предыдущем посте он упоминался как $Q(z|x)$.
Имея $z$ в скрытом пространстве (кодовое представление изображения), декодируйте его в изображение, которое оно представляет — в предыдущем посте он упоминался как $f(z)$.
Учитывая $x$, классифицируйте его цифру, сопоставив ее со слоем размера 10, где i-е значение содержит вероятность i-й цифры.

Первые две подсети — это ванильная структура VAE.

Третий используется как вспомогательная задача, которая задействует некоторые скрытые измерения для кодирования цифры, найденной на изображении. Позвольте мне объяснить мотивацию: в предыдущем посте я объяснил, что нам все равно, какую информацию содержит каждое измерение скрытого пространства. Модель может научиться кодировать любую информацию, которую она считает ценной для своей задачи. Поскольку мы знакомы с набором данных, мы знаем, что тип цифры должен быть важен. Мы хотим помочь модели, предоставив ей эту информацию. Более того, мы будем использовать эту информацию для создания изображений, зависящих от типа цифры, как я объясню позже.

Учитывая тип цифры, мы будем кодировать его, используя одно горячее кодирование, то есть вектор размера 10. Эти 10 чисел будут объединены в скрытый вектор, поэтому при декодировании этого вектора в изображение модель будет использовать цифровая информация.

Есть два способа предоставить модели один вектор горячего кодирования:

Добавьте его в качестве входных данных в модель.
Добавьте его как метку, чтобы модель должна была предсказывать его сама: мы добавим еще одну подсеть, которая предсказывает вектор размера 10, где потеря представляет собой перекрестную энтропию с ожидаемым одним горячим вектором.

Мы пойдем со вторым вариантом. Почему? Что ж, во время тестирования мы можем использовать модель двумя способами:

Предоставьте изображение в качестве входных данных и выведите скрытый вектор.
Предоставьте скрытый вектор в качестве входных данных и сгенерируйте изображение.

Поскольку мы хотим поддерживать и первый вариант, мы не можем предоставить модели цифру в качестве входных данных, так как мы не узнаем ее во время тестирования. Следовательно, модель должна научиться предсказывать его.

Теперь, когда мы понимаем все подсети, составляющие модель, мы можем закодировать их. Математические детали кодировщика и декодера можно найти в предыдущем посте.

Подробное описание вариационных автоэнкодеров | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Подробное описание вариационных автоэнкодеров | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

Ученые используют генеративный искусственный интеллект для ответа на сложные вопросы физики | Новости Массачусетского технологического института | GPTMain News

Объявлены стипендиаты MAD Design Fellowship 2024 года | Новости Массачусетского технологического института | GPTMain News

Технология создания более эффективных многоцелевых роботов | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ