Lumina 2 и HiDream. Тестируем новые модели для создания картинок на своем компьютере

Содержание статьи

Lumina 2.0
Установка и использование модели
Lumina 2.0: результаты тестирования
HiDream: три текстовых декодера и LLM в придачу
Три версии и лицензия MIT License
HiDream: варианты квантования
HiDream: результаты тестирования
Выводы

В последние месяцы новые модели генеративных ИИ стали появляться с завидной регулярностью. Большинство таких моделей — проприетарные, как, например, новый генератор картинок ChatGPT; некоторые можно скачать, но для их работы нужны профессиональные видеокарты с 80 Гбайт видеопамяти. Я же хочу рассказать о двух новых моделях, которые можно запустить на обычном компьютере с обычной видеокартой.

Lumina 2.0

Эта модель использует полноценный LLM Gemma-2-2B и архитектуру VAE от Flux. Число параметров модели — 2,6 миллиарда, что, с одной стороны, немного (в SDXL столько же), а с другой — позволяет запускать ее на слабом железе. Для сравнения: у Flux — 12 миллиардов параметров, и запускать ее на локальном железе уже затруднительно. SD3.5 Large обладает 8 миллиардами параметров (и работает достаточно быстро), а число параметров у SD3.5 Medium — тоже 2,6 миллиарда, что делает ее самой легковесной из современных моделей (впрочем, с ее качеством это особо не помогает). У HiDream — 17 миллиардов параметров.

Установка и использование модели

Для работы с Lumina 2.0 мы будем использовать SwarmUI, уже знакомый тебе по статье «Фишки Flux.1. Добиваемся лучших картинок от новой генеративной модели». Не буду повторяться, тем более что с тех пор интерфейс SwarmUI практически не изменился.

Скачать модель можно с civit.ai.

Скачанный файл с расширением .safetensors нужно положить в папку SwarmUI\Models\Stable-Diffusion, после чего обновить список моделей. Загрузить модель можно, нажав на три точки справа от ее иконки и выбрав Load Now.

Модель чувствительна к выбору CFG, семплера и шедулера. Мои настройки показаны на скриншоте.

Модель поддерживает разрешения до 2К (то есть можно генерировать картинки размером порядка 1440 на 1440, включая другие стандартные варианты соотношения сторон).

Помимо Euler, поддерживаются и некоторые другие семплеры; здесь открыто поле для экспериментов. Так, хорошо работает (и выдает более контрастные и детализированные изображения) семплер DPM++ 2M.

В общем‑то, больше настраивать нечего. Модель легковесная, негативные ключевые слова поддерживает, но есть нюанс: управление ведется через полноценный LLM Gemma-2-2B, и принцип построения запросов к нему подчиняется правилам работы с LLM, а не с более простыми текстовыми декодерами. Разработчики рекомендуют начинать запрос приблизительно следующим образом:

You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts. <Prompt Start>

Не стоит воспринимать этот запрос буквально. Модель прекрасно понимает запросы вроде «You are an artist drawing illustrations for a children’s book», которые можно гибко менять в зависимости от задачи (это работает, можно экспериментировать).

От слов — к делу. Посмотрим, на что способна модель.

Lumina 2.0: результаты тестирования

Поскольку модель использует LLM, я буду приводить запросы целиком. Большую часть из них я составлял вручную, но некоторые я попросил сгенерировать ChatGPT.

Начнем с простого: китайской акварели. Так работает модель с CFG = 7.

you are a Chinese painter. mixing oil paint and watercolor, draw a painting of a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river

А так — с CFG = 3.

А тут CFG = 3, но разрешение — 1440 на 1440.

Симпатично. Добавим котенка, и рисунок пусть будет на старом холсте.

you are a Chinese painter. mixing oil paint and watercolor, draw a painting of of a little girl wearing traditional Chinese hanfu dress, playing with a kitten. In background, there is a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river. canvas is old traditional media

Проблемы с лицом, небольшие проблемы с руками. Котят два.

Попробуем готическую даму.

you are a modern artist. create hyperrealistic art of a Victorian-era gothic woman standing elegantly, wearing a wide-brimmed black hat and a long flowing Victorian dress with intricate lace details and a tight corset, pale skin, all-black clothing, dark and mysterious atmosphere, her expression calm yet haunting, standing in front of a dimly lit Victorian mansion, high contrast between her pale skin and dark attire, cinematic, medium shot, detailed face and fabric, side view, gothic elegance, eerie mood, outdoors, dark, night, fantasy, masterpiece, best quality

То же самое, но маслом.

На картинку маслом похоже не очень. Обрати внимание на низкую детализацию лица.

Это можно исправить сегментированием. Напомню, синтаксис такой:

<segment:face:0.3,0.5>текстовый запрос, описывающий сегмент

Сегментирование работает, огрехи исправляются.

Попробуем гламур.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

Вариант 2. Открой один материал

Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.

← Ранее Более 16 000 устройств Fortinet скомпрометированы через символические ссылки

Далее → Группировка IronHusky обновила MysterySnail для атак на госорганизации в РФ и Монголии