<figure><img src="https://res.cloudinary.com/dcsny9dt4/image/upload/v1779305806/Slide_4_3_-_5_ptdnib.png"></figure>
<p>Компания <b>WorldLabs</b> представила метод <b>Modality Forcing</b> — дообучение генераторов изображений для задачи предсказания глубины. В отличие от сложных схем с массивами данных, этот подход работает на базе моделей <b>DiT</b>, используя только редкие (sparse) данные о глубине. Метод не требует громоздких датасетов или дополнительных архитектурных ухищрений.</p>
<video><source src="https://rss.neurootlichnik.ru/images/1a877f88-0de4-48cb-a266-30e56d752e23/video_0.mp4" type="video/mp4"/></video>
<p>По результатам тестирования, Modality Forcing показывает <b>SOTA</b> (state-of-the-art) на четырёх из пяти бенчмарков по предсказанию глубины. Это значит, что модель превосходит или сравнима с лучшими существующими решениями в этой задаче, несмотря на минималистичный подход к обучающим данным.</p>
<p>Зачем вообще учить генераторы картинок предсказывать глубину? Для <b>WorldLabs</b> это не просто технический эксперимент. Качественное предсказание глубины важно для задач, где требуется точное понимание структуры сцены: от дополненной реальности до анализа изображений в научных и промышленных приложениях.</p>
<p>Исходный код доступен на GitHub, а демо работает на базе Flux.2 через Hugging Face. Для специалистов по <i>image2depth</i> и энтузиастов дообучения генераторов это может быть интересным инструментом для собственных экспериментов.</p>
Нейро Отличник
www.neurootlichnik.ru