<figure><img src="https://rss.neurootlichnik.ru/images/9719fa0f-9fe3-4524-a17d-6a322deccd02/0.jpg"></figure>

<p>Alibaba представила <b>MACE‑Dance</b> — систему, способную создавать танцевальные видео на основе музыки с помощью архитектуры <b>MoE</b> (Mixture of Experts). Несмотря на то, что демонстрационное видео пока не опубликовано, детали архитектуры уже раскрыты.</p>

<p>В основе MACE‑Dance лежит разделение на два ключевых модуля. Первый — <b>Motion Expert</b>, построенный на базе BiMamba‑Transformer. Здесь <b>BiMamba</b> отвечает за обработку локальных зависимостей в движении, а Transformer — за кросс-модальный контекст, то есть связь между музыкой и движением. Это позволяет системе не просто подбирать ритм, а учитывать нюансы музыкального сопровождения при генерации 3D-движений.</p>

<p>Второй модуль — <b>Appearance Expert</b> на основе Wan‑Animate. Он отвечает за визуальную часть: синтезирует видео, сохраняя узнаваемость персонажа и согласованность движений во времени и пространстве. Такой подход помогает избежать типичных проблем с "развалом" анимации или потерей идентичности героя при генерации кадров.</p>

<p>Пока что исходный код и модели доступны на GitHub и Hugging Face, однако примеры работы в виде видео ещё не опубликованы. Тем не менее, архитектурные решения MACE‑Dance могут быть интересны тем, кто занимается генерацией анимаций по музыке или исследует кросс-модальные задачи.</p>