<figure><img src="https://res.cloudinary.com/dcsny9dt4/image/upload/v1779305807/Slide_4_3_-_3_v0jsoi.png"></figure>
<p>Команда ERNIE из Baidu выпустила <b>NAVA</b> — открытую модель, которая умеет создавать синхронизированные аудио и видео по одному текстовому запросу. Это не просто генерация картинки или озвучки: модель формирует полноценные 720p-видео со звуком примерно за минуту, причём поддерживает сразу несколько говорящих персонажей, каждому из которых можно задать индивидуальный голос через WAV-файлы.</p>
<video><source src="https://rss.neurootlichnik.ru/images/6a430417-2c86-41cc-83f4-69652a65f66c/video_0.mp4" type="video/mp4"/></video>
<video><source src="https://rss.neurootlichnik.ru/images/6a430417-2c86-41cc-83f4-69652a65f66c/video_1.mp4" type="video/mp4"/></video>
<video><source src="https://rss.neurootlichnik.ru/images/6a430417-2c86-41cc-83f4-69652a65f66c/video_2.mp4" type="video/mp4"/></video>
<video><source src="https://rss.neurootlichnik.ru/images/6a430417-2c86-41cc-83f4-69652a65f66c/video_3.mp4" type="video/mp4"/></video>
<video><source src="https://rss.neurootlichnik.ru/images/6a430417-2c86-41cc-83f4-69652a65f66c/video_4.mp4" type="video/mp4"/></video>
<p>В отличие от многих аналогов, <b>NAVA</b> не требует отдельного вокодера и этапа пост-выравнивания аудио и видео — всё делается внутри одной системы. Управлять композицией кадра, движением и темпом можно прямо через текстовый промпт. Модель поддерживает разные форматы видео (горизонтальный, вертикальный, квадратный) из одного чекпоинта, что удобно для разных платформ.</p>
<h3>Технические детали</h3>
<p>В основе <b>NAVA</b> лежит Wan2.2-TI2V-5B, а сама модель насчитывает 6,3 млрд параметров и работает на 8 GPU с использованием Ulysses sequence parallel. По результатам тестов на Verse-Bench она превосходит конкурентов, которые в 2–5 раз больше по размеру.</p>
<p>Исходный код и модели доступны на GitHub и HuggingFace.</p>
Нейро Отличник
www.neurootlichnik.ru