Содержание статьи
Lumina 2.0
Эта модель использует полноценный LLM Gemma-2-2B и архитектуру VAE от Flux. Число параметров модели — 2,6 миллиарда, что, с одной стороны, немного (в SDXL столько же), а с другой — позволяет запускать ее на слабом железе. Для сравнения: у Flux — 12 миллиардов параметров, и запускать ее на локальном железе уже затруднительно. SD3.5 Large обладает 8 миллиардами параметров (и работает достаточно быстро), а число параметров у SD3.5 Medium — тоже 2,6 миллиарда, что делает ее самой легковесной из современных моделей (впрочем, с ее качеством это особо не помогает). У HiDream — 17 миллиардов параметров.
Установка и использование модели
Для работы с Lumina 2.0 мы будем использовать SwarmUI, уже знакомый тебе по статье «Фишки Flux.1. Добиваемся лучших картинок от новой генеративной модели». Не буду повторяться, тем более что с тех пор интерфейс SwarmUI практически не изменился.
Скачать модель можно с civit.ai.

Скачанный файл с расширением .
нужно положить в папку SwarmUI\
, после чего обновить список моделей. Загрузить модель можно, нажав на три точки справа от ее иконки и выбрав Load Now.

Модель чувствительна к выбору CFG, семплера и шедулера. Мои настройки показаны на скриншоте.

Модель поддерживает разрешения до 2К (то есть можно генерировать картинки размером порядка 1440 на 1440, включая другие стандартные варианты соотношения сторон).
Помимо Euler, поддерживаются и некоторые другие семплеры; здесь открыто поле для экспериментов. Так, хорошо работает (и выдает более контрастные и детализированные изображения) семплер DPM++ 2M.

В общем‑то, больше настраивать нечего. Модель легковесная, негативные ключевые слова поддерживает, но есть нюанс: управление ведется через полноценный LLM Gemma-2-2B, и принцип построения запросов к нему подчиняется правилам работы с LLM, а не с более простыми текстовыми декодерами. Разработчики рекомендуют начинать запрос приблизительно следующим образом:
You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts. <Prompt Start>
Не стоит воспринимать этот запрос буквально. Модель прекрасно понимает запросы вроде «You are an artist drawing illustrations for a children’s book», которые можно гибко менять в зависимости от задачи (это работает, можно экспериментировать).
От слов — к делу. Посмотрим, на что способна модель.
Lumina 2.0: результаты тестирования
Поскольку модель использует LLM, я буду приводить запросы целиком. Большую часть из них я составлял вручную, но некоторые я попросил сгенерировать ChatGPT.
Начнем с простого: китайской акварели. Так работает модель с CFG
.

you are a Chinese painter. mixing oil paint and watercolor, draw a painting of a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river
А так — с CFG
.

А тут CFG
, но разрешение — 1440 на 1440.

Симпатично. Добавим котенка, и рисунок пусть будет на старом холсте.

you are a Chinese painter. mixing oil paint and watercolor, draw a painting of of a little girl wearing traditional Chinese hanfu dress, playing with a kitten. In background, there is a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river. canvas is old traditional media
Проблемы с лицом, небольшие проблемы с руками. Котят два.
Попробуем готическую даму.

you are a modern artist. create hyperrealistic art of a Victorian-era gothic woman standing elegantly, wearing a wide-brimmed black hat and a long flowing Victorian dress with intricate lace details and a tight corset, pale skin, all-black clothing, dark and mysterious atmosphere, her expression calm yet haunting, standing in front of a dimly lit Victorian mansion, high contrast between her pale skin and dark attire, cinematic, medium shot, detailed face and fabric, side view, gothic elegance, eerie mood, outdoors, dark, night, fantasy, masterpiece, best quality
То же самое, но маслом.

На картинку маслом похоже не очень. Обрати внимание на низкую детализацию лица.

Это можно исправить сегментированием. Напомню, синтаксис такой:
<segment:face:0.3,0.5>текстовый запрос, описывающий сегмент
Результат:

Сегментирование работает, огрехи исправляются.
Попробуем гламур.

Продолжение доступно только участникам
Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».
Присоединяйся к сообществу «Xakep.ru»!
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее