MolmoMotion: визуально-языковая модель для 3D-траекторий

<p>Команда Allen AI представила <b>MolmoMotion</b> — визуально-языковую модель, способную предсказывать <b>3D-траектории</b> движения объектов на основе видео и текстовых инструкций. Это не просто очередная нейросеть для анализа изображений: MolmoMotion совмещает работу с видеорядом и понимание языка, чтобы моделировать, как объекты перемещаются в пространстве с течением времени.</p>

<h2>Как работает MolmoMotion</h2>

<p>Модель анализирует видеоданные и сопоставляет их с текстовыми командами. На выходе она строит прогноз траекторий — то есть, определяет, где и как будет двигаться объект в ближайшие моменты времени. Такой подход позволяет использовать MolmoMotion для задач, где важно учитывать не только текущее положение, но и динамику движения.</p>

<h3>Ключевые возможности</h3>

<ul>
<li>Работа с видео: модель воспринимает последовательность кадров, а не отдельные изображения.</li>
<li>Понимание текстовых инструкций: можно задать условия или команды, влияющие на прогноз траектории.</li>
<li>Построение 3D-моделей движения: результат — не просто двумерная линия, а полноценная пространственная траектория.</li>
</ul>

<p>MolmoMotion относится к классу <b>визуально-языковых моделей</b> (VLM), что позволяет ей интегрировать визуальную и текстовую информацию для более точного анализа. Модель может быть полезна для исследований в области робототехники, анализа поведения объектов на видео и других задач, где требуется прогнозировать перемещения в трехмерном пространстве.</p>

Нейро Отличник