OmniVideo‑7B_Qwen2.5‑Omni: мультимодальная модель для работы с видео в реальном времени

<p>OmniVideo‑7B_Qwen2.5‑Omni — это мультимодальная модель, созданная на базе <b>OmniVideo-7B</b> и инициализированная из <b>Qwen2.5‑Omni</b>. Её основная задача — понимать и обрабатывать видео в реальном времени, а также работать с текстом, изображениями и аудио.</p>

<h2>Что умеет модель</h2>

<p>OmniVideo‑7B_Qwen2.5‑Omni не ограничивается только анализом видео. Она способна:</p>

<ul>
<li>генерировать текстовые ответы на основе мультимодального ввода;</li>
<li>озвучивать свои ответы, причём доступно несколько типов голоса;</li>
<li>работать с фрагментарным вводом — поддерживается потоковая обработка данных;</li>
<li>обрабатывать текст, изображения, аудио и видео одновременно.</li>
</ul>

<h3>Технические детали</h3>

<p>Модель дообучена на датасете <b>OmniVideo‑100K</b>, что позволяет ей лучше справляться с задачами, связанными с видео. Архитектура построена по принципу Thinker‑Talker, а для работы с последовательностями применяется метод <b>TMRoPE</b>. Для обработки одного 60‑секундного видео потребуется около 60 ГБ видеопамяти (VRAM) в режиме BF16.</p>

<p>OmniVideo‑7B_Qwen2.5‑Omni распространяется по лицензии Apache‑2.0, что делает её доступной для широкого круга разработчиков и исследователей.</p>

Нейро Отличник