<figure><img src="https://res.cloudinary.com/dcsny9dt4/image/upload/v1779305806/Slide_4_3_-_6_u25dha.png"></figure>

<p>Сегодня в опенсорс вышла <b>Ideogram 4</b> — генератор картинок, который уже по первым тестам обходит конкурентов по скорости и качеству. Это не доработка старых моделей, а полностью новая архитектура с открытыми весами. Для энтузиастов и разработчиков это редкая возможность посмотреть, как устроен современный генератор изображений изнутри.</p>

<video><source src="https://rss.neurootlichnik.ru/images/b5cda923-f60f-47b1-843c-c907d35dcc15/video_0.mp4" type="video/mp4"/></video>

<p>Главная особенность — <b>структурированный JSON-интерфейс промптов</b>, который позволяет явно управлять цветами, текстом и даже аспектами изображения до 6:1. Модель отлично справляется с многоязычной отрисовкой текста и понимает сложные запросы благодаря интеграции <b>Qwen3-VL-8B-Instruct</b> — полноценной vision-language модели вместо привычных текстовых энкодеров.</p>
<p>Внутри — 9,3 миллиарда параметров, что делает Ideogram 4 заметно компактнее Qwen-Image (20B) и FLUX.2 (32B). Это значит, что модель можно запускать даже на относительно слабых видеокартах. Доступны две версии весов: nf4 (Cuda) и fp8, а в будущем обещают добавить больше вариантов квантизации.</p>
<h3>Технические детали для гиков</h3>
<p>Ideogram 4 построена на <b>Diffusion Transformer (DiT)</b> с полностью единой последовательностью: текстовые и визуальные токены обрабатываются одним 34-слойным трансформером без раздельных веток. Такой подход обеспечивает глубокое взаимодействие между текстом и картинкой на всех этапах генерации. Модель обучалась на разметке в формате JSON, а для пользователей доступны промпт-гайд и улучшайзер запросов.</p>
<p>Есть нюансы с цензурой: используется сервис thehive.ai, но, судя по всему, сообщество быстро разберётся, как это обойти, если потребуется. Лицензия — некоммерческая, детали пока уточняются.</p>
<p>Всё — и веса, и код, и инструкции — уже выложено на GitHub. Пробовать можно не только локально, но и через популярные агрегаторы: fal, crea, comfyAPI, runware, magnifik, replicate и другие.</p>
<p>В ближайшее время обещают добавить редактируемый текст, перемещаемые слои и полноценное редактирование изображений. Завтра будем разбираться с анатомией модели, цензурой и глубиной управления текстом.</p>
<p>Всем бессонной ночи!</p>

Нейро Отличник

www.neurootlichnik.ru