<figure><img src="https://rss.neurootlichnik.ru/images/975107f1-162a-4fa2-aaff-6bf500d7d12b/0.jpg"></figure>
<p>Стартап <b>PrismML</b> снова удивил: команда смогла квантизировать модель <b>FLUX.2 Klein 4B</b> до одного бита. Это не просто технический эксперимент — результат оказался вполне рабочим. В 1-битном варианте <b>Diffusion Transformer</b> занимает всего 930 мегабайт, а в тернарном — 1,2 гигабайта. Для сравнения: обычные модели такого класса требуют в разы больше памяти.</p>
<figure><img src="https://rss.neurootlichnik.ru/images/975107f1-162a-4fa2-aaff-6bf500d7d12b/1.jpg"></figure>
<figure><img src="https://rss.neurootlichnik.ru/images/975107f1-162a-4fa2-aaff-6bf500d7d12b/2.jpg"></figure>
<p>Текстовый энкодер ужать до такого же уровня не получилось, поэтому весь комплект весит около 3,5 гигабайта. Но даже с этим ограничением модель можно запускать прямо в браузере или на телефоне, если есть хотя бы 2 гигабайта оперативной памяти. На iPhone 17 Pro Max генерация картинки 512x512 занимает 9,4 секунды при четырёх шагах — и это с учётом офлоадинга.</p>
<p>Возможность запускать такие модели локально — не просто удобство, а реальный шаг к автономной работе с генеративными системами. Теперь не нужен мощный сервер или облако: достаточно обычного смартфона или ноутбука.</p>
<p>Ждём появления более крупных моделей с подобной квантизацией — теперь это выглядит вполне достижимо.</p>
Нейро Отличник
www.neurootlichnik.ru