<figure><img src="https://res.cloudinary.com/dcsny9dt4/image/upload/v1779305806/Slide_4_3_-_1_ivtuo2.png"></figure>
<p>Команда Allen AI представила <b>MolmoMotion</b> — визуально-языковую модель, способную предсказывать <b>3D-траектории</b> движения объектов на основе видео и текстовых инструкций. Это не просто очередная нейросеть для анализа изображений: MolmoMotion совмещает работу с видеорядом и понимание языка, чтобы моделировать, как объекты перемещаются в пространстве с течением времени.</p>
<h2>Как работает MolmoMotion</h2>
<p>Модель анализирует видеоданные и сопоставляет их с текстовыми командами. На выходе она строит прогноз траекторий — то есть, определяет, где и как будет двигаться объект в ближайшие моменты времени. Такой подход позволяет использовать MolmoMotion для задач, где важно учитывать не только текущее положение, но и динамику движения.</p>
<h3>Ключевые возможности</h3>
<ul>
<li>Работа с видео: модель воспринимает последовательность кадров, а не отдельные изображения.</li>
<li>Понимание текстовых инструкций: можно задать условия или команды, влияющие на прогноз траектории.</li>
<li>Построение 3D-моделей движения: результат — не просто двумерная линия, а полноценная пространственная траектория.</li>
</ul>
<p>MolmoMotion относится к классу <b>визуально-языковых моделей</b> (VLM), что позволяет ей интегрировать визуальную и текстовую информацию для более точного анализа. Модель может быть полезна для исследований в области робототехники, анализа поведения объектов на видео и других задач, где требуется прогнозировать перемещения в трехмерном пространстве.</p>
Нейро Отличник
www.neurootlichnik.ru