SDXL. Как генерировать картинки ускоренными моделями… медленно

Содержание статьи

Немного истории
Обратная сторона медали
Хватит теории! Конкретно, что такое DMD2 и как его убрать?
Как исправить пережженные картинки
Гомеопатия
Заключение

Сейчас появляется все больше ускоренных, а точнее — дистиллированных моделей DMD2. Они позволяют генерировать четкие и детальные картинки за доли секунды, но каждая следующая похожа на предыдущую. Я расскажу, как «замедлить» дистиллированные модели SDXL, вернув утраченную креативность, и как использовать «дистиллят» в малых дозах для улучшения качества.

Не думал, что в конце 2025 года я снова буду писать про SDXL. Современные архитектуры Flux Krea, Chroma, HiDream, Qwen Image и другие давно обогнали SDXL по качеству изображения и точности следования запросу. Более того, метод квантования SVDQuant позволил запускать эти модели на обычных видеокартах чуть ли не быстрее, чем SDXL без квантования.

Однако, несмотря на то что новые модели технически более совершенны, архитектура SDXL по‑прежнему актуальна благодаря огромной экосистеме (LoRA, модели глубокого обучения) и новым методам оптимизации. Сегодня мне хочется раскрыть тему ускоренных, «дистиллированных» моделей и поговорить об их достоинствах и недостатках.

Немного истории

Первым в экосистеме SDXL появился семплер LCM, работающий со специально адаптированными латентными консистентными моделями. Такие модели (вместе с этим семплером) позволили создавать картинки за 8–12 шагов, хоть и с довольно мягким контрастом и склонностью «замыливать» мелкие детали. Потом был Turbo: достаточно быстрый, но не слишком качественный метод, который временами весьма оригинально интерпретировал запросы (и по‑прежнему имел проблемы с мелкими деталями). Затем был Lightning, который стал своеобразным компромиссом и задержался надолго; мелкие детали и текстуры по‑прежнему страдали, да и с разнообразием результатов было не очень.

Когда появился DMD2 (Improved Distribution Matching Distillation for Fast Image Synthesis), многие сперва решили, что это очередной «ускоритель». Однако довольно быстро стало понятно, что у DMD2 есть ряд кардинальных отличий от предыдущих способов. DMD2 не заставляет жертвовать деталями и текстурами ради скорости — наоборот, дистиллированные веса начинают работать чище, аккуратнее сводить шум, лучше держать структуру кадра и не рассыпать мелкие элементы. Вроде бы — вот оно: и более ровное качество, и аккуратная внутренняя логика картинки, и все это за 4–8 шагов с семплером LCM и CFG = 1. Казалось бы, что здесь может не понравиться?

Обратная сторона медали

Недостатки всплыли довольно быстро. Да, за 4–8 шагов можно сгенерировать ровную, аккуратную картинку с когерентными мелкими деталями и текстурами. Но следующая генерация с тем же запросом и другим сидом оказывалась подозрительно похожа на предыдущую; лица со временем начинали напоминать вариации одного и того же персонажа — «одно лицо, прически разные».

К этому добавляется и то, что CFG = 1 фактически лишает нас негативных ключевых слов, а практически обязательная работа через семплер LCM отнимает у пользователя привычные инструменты тонкой регулировки качества: например, DPM++ обычно рисуют жестче и детальнее, а Euler, наоборот, сглаживает избыточную «шероховатость» (я знаю, что некоторые дистиллированные модели позволяют использовать CFG порядка 1,2; это не слишком влияет на конечный результат, а скорость — падает).

Все это — не баг, а фича: низкая дивергенция результатов при смене сидов — это прямой результат того, что у дистиллированной модели внутреннее представление стабильнее. Похожий эффект можно наблюдать в дистиллированных версиях оригинальной модели Flux1.dev.

Сейчас старенький SDXL в качестве модели для быстрой генерации картинок на мобильных устройствах постепенно вытесняет SD1.5, и в этом контексте DMD2 — отличный инструмент. На Civitai появляется все больше дистиллированных моделей на основе DMD2; многие из них действительно интересны и уникальны, но пользоваться ими, увы, довольно скучно: на один и тот же запрос с разными сидами модель выдает результат, похожий до степени смешения.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

Вариант 2. Открой один материал

Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.

← Ранее Японский производитель пива Asahi сообщил об утечке данных 1,9 млн человек

Далее → Вредоносные расширения ShadyPanda для Chrome и Edge установили более 4,3 млн раз

Содержание статьи

Немного истории

Обратная сторона медали

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

1 год

1 месяц

Вариант 2. Открой один материал

Подпишись на наc в Telegram!