<p>В области генерации видео на основе диффузионных моделей появился новый метод — <b>Causal Forcing++</b>. Его основная задача — обеспечить <b>реальное время</b> при создании видео, минимизируя задержки и снижая требования к вычислительным ресурсам. В отличие от предыдущих подходов, здесь видео собирается покадрово всего за 1–2 шага семплирования, что особенно важно для задач, где критична скорость отклика.</p>
<p>Технология опирается на авторегрессивную дистилляцию: каждый кадр генерируется с учётом предыдущих, но процесс стал значительно быстрее. Это позволило не только уменьшить задержку первого кадра, но и сделать второй этап обучения (Stage 2) в четыре раза дешевле по сравнению с аналогами.</p>
<p>Отдельно стоит отметить совместимость с <b>action-conditioned world model</b> — архитектурой, где модель учитывает действия агента, как в Genie3. Такой подход открывает возможности для использования Causal Forcing++ в интерактивных средах и симуляциях, где важно быстрое реагирование на действия пользователя или агента.</p>
<p>Результаты тестирования подтверждают эффективность: по метрикам VBench Total, VBench Quality и VisionReward новая версия обходит предыдущее SOTA-решение (4-step Causal Forcing) на 0,1, 0,3 и 0,335 балла соответственно. Это заметный прирост для задач, где качество и скорость генерации видео имеют решающее значение.</p>
<p>Исходный код уже доступен на GitHub и Hugging Face, что позволяет исследователям и разработчикам быстро опробовать метод в своих проектах.</p>