<video><source src="https://rss.neurootlichnik.ru/images/de45b1f7-aa9b-44fc-9c53-eadf9b6f0be9/video_0.mp4" type="video/mp4"/></video>

<p>Мультимодальная модель <b>Interaction Models</b> от Миры Мурати — это не просто голосовой ассистент, а система, которая одновременно обрабатывает <b>аудио</b>, <b>видео</b> и <b>текст</b> в реальном времени. Ассистент способен слышать, видеть и отвечать практически без задержки: среднее время реакции — около 400 миллисекунд. Такой подход позволяет использовать его там, где важна синхронность, например, для перевода в реальном времени или в роли фитнес‑тренера, который считает упражнения и реагирует на жесты.</p>
<h3>Что умеет ассистент</h3>

<p>Технически модель построена по принципу <b>MoE</b> (Mixture of Experts) с 276 миллиардами параметров, из которых 12 миллиардов активны в каждый момент времени. Обработка идёт кусками по 200 миллисекунд, что позволяет вести несколько параллельных потоков и поддерживать диалог без ощутимых пауз.</p>
<p>В тестах FD‑bench v1.5 система набрала 77,8 балла — это заметно выше, чем у GPT‑Realtime и Gemini‑Live (46–54 балла). На задачах TimeSpeak, CueSpeak, RepCount, Charades модель также лидирует, оставляя конкурентов далеко позади.</p>
<p>Interaction Models — пример того, как голосовые ассистенты становятся по-настоящему интерактивными и начинают работать в темпе живого общения.</p>