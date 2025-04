В пос­ледние месяцы новые модели генера­тив­ных ИИ ста­ли появ­лять­ся с завид­ной регуляр­ностью. Боль­шинс­тво таких моделей — проп­риетар­ные, как, нап­ример, новый генера­тор кар­тинок ChatGPT; некото­рые мож­но ска­чать, но для их работы нуж­ны про­фес­сиональ­ные виде­окар­ты с 80 Гбайт виде­опа­мяти. Я же хочу рас­ска­зать о двух новых моделях, которые мож­но запус­тить на обыч­ном компь­юте­ре с обыч­ной виде­окар­той.

Lumina 2.0

Эта модель исполь­зует пол­ноцен­ный LLM Gemma-2-2B и архи­тек­туру VAE от Flux. Чис­ло парамет­ров модели — 2,6 мил­лиар­да, что, с одной сто­роны, нем­ного (в SDXL столь­ко же), а с дру­гой — поз­воля­ет запус­кать ее на сла­бом железе. Для срав­нения: у Flux — 12 мил­лиар­дов парамет­ров, и запус­кать ее на локаль­ном железе уже зат­рудни­тель­но. SD3.5 Large обла­дает 8 мил­лиар­дами парамет­ров (и работа­ет дос­таточ­но быс­тро), а чис­ло парамет­ров у SD3.5 Medium — тоже 2,6 мил­лиар­да, что дела­ет ее самой лег­ковес­ной из сов­ремен­ных моделей (впро­чем, с ее качес­твом это осо­бо не помога­ет). У HiDream — 17 мил­лиар­дов парамет­ров.

Установка и использование модели

Для работы с Lumina 2.0 мы будем исполь­зовать SwarmUI, уже зна­комый тебе по статье «Фиш­ки Flux.1. Добива­емся луч­ших кар­тинок от новой генера­тив­ной модели». Не буду пов­торять­ся, тем более что с тех пор интерфейс SwarmUI прак­тичес­ки не изме­нил­ся.

Ска­чать модель мож­но с civit.ai.

Ска­чан­ный файл с рас­ширени­ем . safetensors нуж­но положить в пап­ку SwarmUI\ Models\ Stable-Diffusion , пос­ле чего обно­вить спи­сок моделей. Заг­рузить модель мож­но, нажав на три точ­ки спра­ва от ее икон­ки и выб­рав Load Now.

Мо­дель чувс­тви­тель­на к выбору CFG, сем­пле­ра и шедуле­ра. Мои нас­трой­ки показа­ны на скрин­шоте.

Мо­дель под­держи­вает раз­решения до 2К (то есть мож­но генери­ровать кар­тинки раз­мером поряд­ка 1440 на 1440, вклю­чая дру­гие стан­дар­тные вари­анты соот­ношения сто­рон).

По­мимо Euler, под­держи­вают­ся и некото­рые дру­гие сем­пле­ры; здесь откры­то поле для экспе­римен­тов. Так, хорошо работа­ет (и выда­ет более кон­трастные и детали­зиро­ван­ные изоб­ражения) сем­плер DPM++ 2M.

В общем‑то, боль­ше нас­тра­ивать нечего. Модель лег­ковес­ная, негатив­ные клю­чевые сло­ва под­держи­вает, но есть нюанс: управле­ние ведет­ся через пол­ноцен­ный LLM Gemma-2-2B, и прин­цип пос­тро­ения зап­росов к нему под­чиня­ется пра­вилам работы с LLM, а не с более прос­тыми тек­сто­выми декоде­рами. Раз­работ­чики рекомен­дуют начинать зап­рос приб­лизитель­но сле­дующим обра­зом:

You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts. <Prompt Start>

Не сто­ит вос­при­нимать этот зап­рос бук­валь­но. Модель прек­расно понима­ет зап­росы вро­де «You are an artist drawing illustrations for a children’s book», которые мож­но гиб­ко менять в зависи­мос­ти от задачи (это работа­ет, мож­но экспе­римен­тировать).

От слов — к делу. Пос­мотрим, на что спо­соб­на модель.

Lumina 2.0: результаты тестирования

Пос­коль­ку модель исполь­зует LLM, я буду при­водить зап­росы целиком. Боль­шую часть из них я сос­тавлял вруч­ную, но некото­рые я поп­росил сге­нери­ровать ChatGPT.

Нач­нем с прос­того: китай­ской аква­рели. Так работа­ет модель с CFG = 7 .

you are a Chinese painter. mixing oil paint and watercolor, draw a painting of a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river

А так — с CFG = 3 .

А тут CFG = 3 , но раз­решение — 1440 на 1440.

Сим­патич­но. Добавим котен­ка, и рисунок пусть будет на ста­ром хол­сте.

you are a Chinese painter. mixing oil paint and watercolor, draw a painting of of a little girl wearing traditional Chinese hanfu dress, playing with a kitten. In background, there is a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river. canvas is old traditional media

Проб­лемы с лицом, неболь­шие проб­лемы с руками. Котят два.

Поп­робу­ем готичес­кую даму.

you are a modern artist. create hyperrealistic art of a Victorian-era gothic woman standing elegantly, wearing a wide-brimmed black hat and a long flowing Victorian dress with intricate lace details and a tight corset, pale skin, all-black clothing, dark and mysterious atmosphere, her expression calm yet haunting, standing in front of a dimly lit Victorian mansion, high contrast between her pale skin and dark attire, cinematic, medium shot, detailed face and fabric, side view, gothic elegance, eerie mood, outdoors, dark, night, fantasy, masterpiece, best quality

То же самое, но мас­лом.

На кар­тинку мас­лом похоже не очень. Обра­ти вни­мание на низ­кую детали­зацию лица.

Это мож­но испра­вить сег­менти­рова­нием. Напом­ню, син­таксис такой:

< segment: face: 0. 3, 0. 5>текстовый запрос, описывающий сегмент

Ре­зуль­тат:

Сег­менти­рова­ние работа­ет, огре­хи исправ­ляют­ся.

Поп­робу­ем гла­мур.