NAVA: Baidu представила открытую модель для генерации видео и аудио

Команда ERNIE из Baidu выпустила NAVA — открытую модель, которая умеет создавать синхронизированные аудио и видео по одному текстовому запросу. Это не просто генерация картинки или озвучки: модель формирует полноценные 720p-видео со звуком примерно за минуту, причём поддерживает сразу несколько говорящих персонажей, каждому из которых можно задать индивидуальный голос через WAV-файлы.

В отличие от многих аналогов, NAVA не требует отдельного вокодера и этапа пост-выравнивания аудио и видео — всё делается внутри одной системы. Управлять композицией кадра, движением и темпом можно прямо через текстовый промпт. Модель поддерживает разные форматы видео (горизонтальный, вертикальный, квадратный) из одного чекпоинта, что удобно для разных платформ.

<h3>Технические детали</h3>
В основе NAVA лежит Wan2.2-TI2V-5B, а сама модель насчитывает 6,3 млрд параметров и работает на 8 GPU с использованием Ulysses sequence parallel. По результатам тестов на Verse-Bench она превосходит конкурентов, которые в 2–5 раз больше по размеру.

Исходный код и модели доступны на GitHub и HuggingFace.

Нейро Отличник