Modality Forcing: дообучение генераторов картинок для предсказания глубины

Компания WorldLabs представила метод Modality Forcing — дообучение генераторов изображений для задачи предсказания глубины. В отличие от сложных схем с массивами данных, этот подход работает на базе моделей DiT, используя только редкие (sparse) данные о глубине. Метод не требует громоздких датасетов или дополнительных архитектурных ухищрений.

По результатам тестирования, Modality Forcing показывает SOTA (state-of-the-art) на четырёх из пяти бенчмарков по предсказанию глубины. Это значит, что модель превосходит или сравнима с лучшими существующими решениями в этой задаче, несмотря на минималистичный подход к обучающим данным.
Зачем вообще учить генераторы картинок предсказывать глубину? Для WorldLabs это не просто технический эксперимент. Качественное предсказание глубины важно для задач, где требуется точное понимание структуры сцены: от дополненной реальности до анализа изображений в научных и промышленных приложениях.
Исходный код доступен на GitHub, а демо работает на базе Flux.2 через Hugging Face. Для специалистов по image2depth и энтузиастов дообучения генераторов это может быть интересным инструментом для собственных экспериментов.

Нейро Отличник