CogOmniControl: мультимодальный контроль генерации контента от Tencent

CogOmniControl — это система, которая позволяет управлять генерацией видео с помощью сложных мультимодальных подсказок. В основе лежит связка двух компонентов: CogVLM и CogOmniDiT. Первый анализирует запрос пользователя, даже если он абстрактный или недостаточно подробный, и превращает его в структурированные инструкции. Второй — отвечает за само создание видео, согласовывая все условия и требования через обучение с подкреплением.

Главная особенность — поддержка смешанных запросов: можно комбинировать текст, изображения и другие форматы, чтобы получить максимально точный результат. Система не просто реагирует на простые команды, а умеет распознавать творческое намерение пользователя и переводить его в конкретные действия для генератора.

<h3>Что умеет CogOmniControl</h3>

<ul>
<li>Принимает запросы, в которых смешаны текст и изображения.</li>
<li>Генерирует видео по подсказкам разных типов, не ограничиваясь одной модальностью.</li>
<li>Точно следует сложным инструкциям, где заданы условия для разных элементов будущего видео.</li>
<li>Синхронизирует объекты и события из разных источников в едином видеоролике.</li>
</ul>

Пока проект находится в ожидании релиза на GitHub (github.com/UM-Lab/CogOmniControl), но уже сейчас ясно, что CogOmniControl ориентирован на тех, кому важно управлять деталями генерации и добиваться точного соответствия задумке.