Causal Forcing++: ускорение генерации видео на диффузионных моделях

В области генерации видео на основе диффузионных моделей появился новый метод — Causal Forcing++. Его основная задача — обеспечить реальное время при создании видео, минимизируя задержки и снижая требования к вычислительным ресурсам. В отличие от предыдущих подходов, здесь видео собирается покадрово всего за 1–2 шага семплирования, что особенно важно для задач, где критична скорость отклика.

Технология опирается на авторегрессивную дистилляцию: каждый кадр генерируется с учётом предыдущих, но процесс стал значительно быстрее. Это позволило не только уменьшить задержку первого кадра, но и сделать второй этап обучения (Stage 2) в четыре раза дешевле по сравнению с аналогами.

Отдельно стоит отметить совместимость с action-conditioned world model — архитектурой, где модель учитывает действия агента, как в Genie3. Такой подход открывает возможности для использования Causal Forcing++ в интерактивных средах и симуляциях, где важно быстрое реагирование на действия пользователя или агента.

Результаты тестирования подтверждают эффективность: по метрикам VBench Total, VBench Quality и VisionReward новая версия обходит предыдущее SOTA-решение (4-step Causal Forcing) на 0,1, 0,3 и 0,335 балла соответственно. Это заметный прирост для задач, где качество и скорость генерации видео имеют решающее значение.

Исходный код уже доступен на GitHub и Hugging Face, что позволяет исследователям и разработчикам быстро опробовать метод в своих проектах.