<figure><img src="https://res.cloudinary.com/dcsny9dt4/image/upload/v1779305806/Slide_4_3_-_2_usuik5.png"></figure>

<p>Marlin-2B — новая <b>VLM</b> (Vision-Language Model), которая выделяется не только компактностью, но и возможностями по работе с видео. При объеме всего 2 миллиарда параметров она конкурирует с более крупными решениями, такими как Gemini-2.5-flash.</p>

<video><source src="https://rss.neurootlichnik.ru/images/fc86ef5b-cabc-4092-b69c-7f4f667a48a7/video_0.mp4" type="video/mp4"/></video>

<p>Главная особенность Marlin-2B — функции <b>marlin.caption()</b> и <b>marlin.find()</b>. Первая позволяет получить структурированный JSON с описанием сцен и событий в видео, причем с точностью таймкодов до секунды. Вторая — быстро находит нужные фрагменты по любому запросу на естественном языке, возвращая точные временные рамки.</p>
<p>Marlin-2B может быть полезна в задачах, где важно быстро и точно извлекать информацию из видеоматериалов. Например:</p>
<ul>
<li>Автоматическая разметка и каталогизация больших видеоархивов</li>
<li>Поиск конкретных событий или объектов в длинных роликах</li>
<li>Создание кратких описаний или расшифровок для видеоконтента</li>
<li>Интеграция в сервисы для анализа видеоданных на лету</li>
</ul>
<p>Модель доступна на huggingface.co, а демо — на vlm.nemostation.com. Для тех, кто работает с видео и нуждается в структурированной информации без лишних вычислительных затрат, Marlin-2B может стать рабочим инструментом.</p>