Interaction Models: голосовой ассистент, который слышит, видит и реагирует мгновенно

Мультимодальная модель Interaction Models от Миры Мурати — это не просто голосовой ассистент, а система, которая одновременно обрабатывает аудио, видео и текст в реальном времени. Ассистент способен слышать, видеть и отвечать практически без задержки: среднее время реакции — около 400 миллисекунд. Такой подход позволяет использовать его там, где важна синхронность, например, для перевода в реальном времени или в роли фитнес‑тренера, который считает упражнения и реагирует на жесты.
<h3>Что умеет ассистент</h3>

Технически модель построена по принципу MoE (Mixture of Experts) с 276 миллиардами параметров, из которых 12 миллиардов активны в каждый момент времени. Обработка идёт кусками по 200 миллисекунд, что позволяет вести несколько параллельных потоков и поддерживать диалог без ощутимых пауз.
В тестах FD‑bench v1.5 система набрала 77,8 балла — это заметно выше, чем у GPT‑Realtime и Gemini‑Live (46–54 балла). На задачах TimeSpeak, CueSpeak, RepCount, Charades модель также лидирует, оставляя конкурентов далеко позади.
Interaction Models — пример того, как голосовые ассистенты становятся по-настоящему интерактивными и начинают работать в темпе живого общения.