Bonsai Image 4B — чудеса квантизации

Стартап PrismML снова удивил: команда смогла квантизировать модель FLUX.2 Klein 4B до одного бита. Это не просто технический эксперимент — результат оказался вполне рабочим. В 1-битном варианте Diffusion Transformer занимает всего 930 мегабайт, а в тернарном — 1,2 гигабайта. Для сравнения: обычные модели такого класса требуют в разы больше памяти.

<figure><img src="https://rss.neurootlichnik.ru/images/975107f1-162a-4fa2-aaff-6bf500d7d12b/2.jpg"></figure>
Текстовый энкодер ужать до такого же уровня не получилось, поэтому весь комплект весит около 3,5 гигабайта. Но даже с этим ограничением модель можно запускать прямо в браузере или на телефоне, если есть хотя бы 2 гигабайта оперативной памяти. На iPhone 17 Pro Max генерация картинки 512x512 занимает 9,4 секунды при четырёх шагах — и это с учётом офлоадинга.

Возможность запускать такие модели локально — не просто удобство, а реальный шаг к автономной работе с генеративными системами. Теперь не нужен мощный сервер или облако: достаточно обычного смартфона или ноутбука.

Ждём появления более крупных моделей с подобной квантизацией — теперь это выглядит вполне достижимо.

Нейро Отличник