Содержание статьи
Не думал, что в конце 2025 года я снова буду писать про SDXL. Современные архитектуры Flux Krea, Chroma, HiDream, Qwen Image и другие давно обогнали SDXL по качеству изображения и точности следования запросу. Более того, метод квантования SVDQuant позволил запускать эти модели на обычных видеокартах чуть ли не быстрее, чем SDXL без квантования.
Однако, несмотря на то что новые модели технически более совершенны, архитектура SDXL по‑прежнему актуальна благодаря огромной экосистеме (LoRA, модели глубокого обучения) и новым методам оптимизации. Сегодня мне хочется раскрыть тему ускоренных, «дистиллированных» моделей и поговорить об их достоинствах и недостатках.
Немного истории
Первым в экосистеме SDXL появился семплер LCM, работающий со специально адаптированными латентными консистентными моделями. Такие модели (вместе с этим семплером) позволили создавать картинки за 8–12 шагов, хоть и с довольно мягким контрастом и склонностью «замыливать» мелкие детали. Потом был Turbo: достаточно быстрый, но не слишком качественный метод, который временами весьма оригинально интерпретировал запросы (и по‑прежнему имел проблемы с мелкими деталями). Затем был Lightning, который стал своеобразным компромиссом и задержался надолго; мелкие детали и текстуры по‑прежнему страдали, да и с разнообразием результатов было не очень.
Когда появился DMD2 (Improved Distribution Matching Distillation for Fast Image Synthesis), многие сперва решили, что это очередной «ускоритель». Однако довольно быстро стало понятно, что у DMD2 есть ряд кардинальных отличий от предыдущих способов. DMD2 не заставляет жертвовать деталями и текстурами ради скорости — наоборот, дистиллированные веса начинают работать чище, аккуратнее сводить шум, лучше держать структуру кадра и не рассыпать мелкие элементы. Вроде бы — вот оно: и более ровное качество, и аккуратная внутренняя логика картинки, и все это за 4–8 шагов с семплером LCM и CFG = 1. Казалось бы, что здесь может не понравиться?
Обратная сторона медали
Недостатки всплыли довольно быстро. Да, за 4–8 шагов можно сгенерировать ровную, аккуратную картинку с когерентными мелкими деталями и текстурами. Но следующая генерация с тем же запросом и другим сидом оказывалась подозрительно похожа на предыдущую; лица со временем начинали напоминать вариации одного и того же персонажа — «одно лицо, прически разные».
К этому добавляется и то, что CFG = 1 фактически лишает нас негативных ключевых слов, а практически обязательная работа через семплер LCM отнимает у пользователя привычные инструменты тонкой регулировки качества: например, DPM++ обычно рисуют жестче и детальнее, а Euler, наоборот, сглаживает избыточную «шероховатость» (я знаю, что некоторые дистиллированные модели позволяют использовать CFG порядка 1,2; это не слишком влияет на конечный результат, а скорость — падает).
Все это — не баг, а фича: низкая дивергенция результатов при смене сидов — это прямой результат того, что у дистиллированной модели внутреннее представление стабильнее. Похожий эффект можно наблюдать в дистиллированных версиях оригинальной модели Flux1.dev.
Сейчас старенький SDXL в качестве модели для быстрой генерации картинок на мобильных устройствах постепенно вытесняет SD1.5, и в этом контексте DMD2 — отличный инструмент. На Civitai появляется все больше дистиллированных моделей на основе DMD2; многие из них действительно интересны и уникальны, но пользоваться ими, увы, довольно скучно: на один и тот же запрос с разными сидами модель выдает результат, похожий до степени смешения.
Продолжение доступно только участникам
Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».
Присоединяйся к сообществу «Xakep.ru»!
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее
