MACE‑Dance: генерация танцевальных движений по музыке от Alibaba

Alibaba представила MACE‑Dance — систему, способную создавать танцевальные видео на основе музыки с помощью архитектуры MoE (Mixture of Experts). Несмотря на то, что демонстрационное видео пока не опубликовано, детали архитектуры уже раскрыты.

В основе MACE‑Dance лежит разделение на два ключевых модуля. Первый — Motion Expert, построенный на базе BiMamba‑Transformer. Здесь BiMamba отвечает за обработку локальных зависимостей в движении, а Transformer — за кросс-модальный контекст, то есть связь между музыкой и движением. Это позволяет системе не просто подбирать ритм, а учитывать нюансы музыкального сопровождения при генерации 3D-движений.

Второй модуль — Appearance Expert на основе Wan‑Animate. Он отвечает за визуальную часть: синтезирует видео, сохраняя узнаваемость персонажа и согласованность движений во времени и пространстве. Такой подход помогает избежать типичных проблем с "развалом" анимации или потерей идентичности героя при генерации кадров.

Пока что исходный код и модели доступны на GitHub и Hugging Face, однако примеры работы в виде видео ещё не опубликованы. Тем не менее, архитектурные решения MACE‑Dance могут быть интересны тем, кто занимается генерацией анимаций по музыке или исследует кросс-модальные задачи.