PiD: диффузионный декодер для генерации изображений без артефактов

Компания Nvidia представила PiD — диффузионный декодер, который подключается к существующим моделям генерации изображений и заменяет стандартные VAE или RAE-декодеры. Главная особенность PiD — он преобразует латентные представления в изображения высокого разрешения за один проход, что позволяет избавиться от типичных артефактов вроде муара и размытости.

В отличие от классических декодеров, PiD не требует переобучения моделей: его можно интегрировать в уже готовые решения. Это особенно актуально для проектов, где важна детализация и чистота изображения на выходе. По заявлениям разработчиков, PiD уже внедрён в такие инструменты, как MAI и Z-IMAGE.
Ключевые задачи, которые решает PiD:
<ul>
<li>Декодирование латентных представлений в пиксели высокого разрешения за один проход</li>
<li>Устранение артефактов, характерных для VAE-декодеров</li>
<li>Улучшение детализации итоговых изображений</li>
</ul>
Исходный код PiD доступен под лицензией Apache 2.0 на GitHub и Hugging Face. Это открывает доступ к технологии для разработчиков, работающих с генеративными моделями изображений.

Нейро Отличник