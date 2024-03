Ес­ли ты соберешь­ся запус­кать на сво­ем компь­юте­ре генера­тив­ные модели для соз­дания изоб­ражений, то перед тобой вста­нет серь­езная проб­лема выбора: их мно­жес­тво, и все они дают похожие, но все же нем­ного раз­ные резуль­таты. В этой статье погово­рим об этих отли­чиях, а так­же о рефай­нерах, сти­лях и лорах, а так­же об осо­бен­ностях пром­птин­га.

Мы про­дол­жим изу­чать воз­можнос­ти генера­тив­ной ней­росети Stable Diffusion XL, о которой я уже писал. В пре­дыду­щей статье мы осво­или уста­нов­ку ней­росети на компь­ютер, сге­нери­рова­ли нес­коль­ко фоторе­алис­тичных изоб­ражений, поз­накоми­лись с общей бедой сов­ремен­ных ней­росетей — паль­цами руки — и поп­робова­ли их испра­вить.

В качес­тве инс­тру­мен­та по‑преж­нему будем исполь­зовать Fooocus. В то же вре­мя эта статья — пос­ледняя, где я его исполь­зую. В сле­дующий раз перей­дем на более прод­винутую сбор­ку — AUTOMATIC1111.

Последние новости генеративного ИИ Ге­нера­тив­ные ней­росети раз­вива­ются со ско­ростью мыс­ли. Не успе­ла вый­ти пре­дыду­щая статья, как новос­ти посыпа­лись слов­но из рога изо­билия. Раз — и раз­работ­чики Fooocus выпус­кают Stable Diffusion WebUI Forge, свой собс­твен­ный опти­мизи­рован­ный форк популяр­ней­шего AUTOMATIC1111. Новая сбор­ка про­дол­жает тра­диции Fooocus — она работа­ет «из короб­ки» и не тре­бует доработ­ки напиль­ником, как ори­гиналь­ный про­ект. Два — и Stability AI, раз­работ­чики Stable Diffusion, выпус­кают пред­варитель­ную сбор­ку нового поколе­ния ней­росети, Stable Cascade, погонять которую мож­но пря­мо в онлай­не, но мож­но и уста­новить на свой компь­ютер по ссыл­ке с GitHub. Три — и ком­пания ByteDance, раз­работав­шая TikTok, выпус­кает про­ект SDXL-Lightning, который поз­воля­ет генери­ровать изоб­ражения за доли секун­ды — быс­трее, чем SDXL Turbo, и с более высоким качес­твом. К при­меру, кар­тинка ниже была соз­дана за восемь секунд в раз­решении 2024 на 2024; в стан­дар­тном для SDXL раз­решении 1024 на 1024 изоб­ражения соз­дают­ся менее чем за секун­ду. Базовую модель мож­но оп­робовать на сай­те Hugging Face, но луч­ше ска­чать модель dreamshaperXL_lightningDPMSDE с Civitai и исполь­зовать ее локаль­но (толь­ко вни­матель­но озна­комь­ся с инс­трук­циями — это важ­но). И уже ког­да я писал эту статью, приш­ла совер­шенно неожи­дан­ная новость: Stability AI выпус­тила Stable Diffusion 3, пока толь­ко в виде превью для раз­работ­чиков. В новой вер­сии Stable Diffusion (кста­ти, не сов­сем понят­но, как она соот­носит­ся с релизом Stable Cascade) обе­щают мно­го хороше­го, при этом поч­ти дос­ловно идут по пун­ктам из пресс‑релиза Midjourney V6. Пер­вые при­меры впе­чат­ляют, но на то они и дем­ки.

Различия между пресетами

В прош­лый раз мы генери­рова­ли фоторе­алис­тичные изоб­ражения, запус­тив Fooocus коман­дой run_realistic. bat , одна­ко фотог­рафи­ями Stable Diffusion не огра­ничи­вает­ся. Запус­тив ней­росеть коман­дой run. bat , мы авто­мати­чес­ки перек­лючим­ся на дру­гие, уни­вер­саль­ные нас­трой­ки. Из стро­ки негатив­ных клю­чеви­ков про­падут тер­мины, зап­реща­ющие художес­твен­ные сти­ли, а из спис­ка под­клю­чен­ных «лор» исчезнет та, которая отве­чает за фоторе­алис­тичность.

info LoRA (Low-Rank Adaptation) — ком­пак­тные модели, допол­няющие основные.

При запус­ке какого‑либо фай­ла Fooocus исполь­зует нас­трой­ки из соот­ветс­тву­юще­го пре­сета (они лежат в пап­ке Fooocus\ presets ). По этой при­чине сто­ит запус­кать фай­лы кор­рек­тной коман­дой в зависи­мос­ти от типа изоб­ражений, которые ты собира­ешь­ся генери­ровать.

Раз уж мы загово­рили о пре­сетах, то раз­ница меж­ду фоторе­алис­тичны­ми ( run_realistic. bat ) и основны­ми ( run. bat ) нас­трой­ками такова.

В фоторе­алис­тичном пре­сете базовая модель — realisticStockPhoto_v10, лора — SDXL_FILM_PHOTOGRAPHY_STYLE_BetaV0.4, негатив­ные клю­чевые сло­ва — unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label, активные по умол­чанию сти­ли — динами­чес­кий стиль Fooocus V2, а так­же Fooocus Photograph и Fooocus Negative.

В основном же пре­сете, который запус­кает­ся коман­дой run. bat , нас­трой­ки дру­гие. В качес­тве базовой модели авто­ры выб­рали juggernautXL_version6Rundiffusion (хорошая уни­вер­саль­ная модель), лора — sd_xl_offset_example-lora_1. 0 (ее пред­назна­чение с дефол­тной нас­трой­кой — уве­личи­вать кон­траст; на высоких весовых коэф­фици­ентах может помочь генери­ровать изоб­ражения с глу­боким чер­ным цве­том). Никаких негатив­ных клю­чевых слов на сей раз нет, а в качес­тве сти­лей выс­тавлен набор из уже зна­комо­го динами­чес­кого улуч­шай­зера Fooocus V2 и новых сти­лей Fooocus Enhance и Fooocus Sharp.

Зна­чение здесь име­ет бук­валь­но всё, и нач­нем мы с глав­ного — выбора базовой модели.

Базовые модели

Ба­зовая модель, или чек­поинт, — это генера­тив­ная модель, исполь­зуемая для пре­обра­зова­ния тек­ста в изоб­ражения алго­рит­мами Stable Diffusion. В зависи­мос­ти от выбора модели на один и тот же зап­рос с одним и тем же сидом и про­чими нас­трой­ками ты можешь получить как похожие изоб­ражения, выпол­ненные в раз­ных сти­лях, так и совер­шенно раз­ные кар­тинки.

В качес­тве основных Fooocus под­держи­вает толь­ко модели SDXL 1.0, а вот в качес­тве рефай­нера (Refiner) может исполь­зовать как их, так и ста­рые модели от SD 1.5. О рефай­нерах мы погово­рим чуть ниже; пока что ты можешь ска­чать одну или нес­коль­ко моделей в допол­нение к juggernautXL_version6Rundiffusion , которую Fooocus ска­чает авто­мати­чес­ки при запус­ке run. exe . Сох­ранять чек­поин­ты нуж­но в пап­ку Fooocus\ models\ checkpoints или в любую дру­гую, если ты ука­жешь к ней путь в фай­ле Fooocus\ config. txt . Нап­ример, так:

"path_ checkpoints": "d:\ \ Models\ \ Stable- Diffusion\",

Пос­ле это­го мож­но нажать Refresh all files, и модель появит­ся в спис­ке.

Поч­ти все модели в боль­шей или мень­шей сте­пени осно­ваны на самой пер­вой модели, которую выпус­тила ком­пания Stability AI. Они допол­нялись новыми дан­ными, получен­ными в резуль­тате обу­чения; авто­ры ремик­сов добав­ляли улуч­шения и тон­кие нас­трой­ки. В резуль­тате раз­ные модели могут замет­но раз­личать­ся меж­ду собой как по общей ком­позиции изоб­ражения, так и по качес­тву кар­тинки.

Ни­же — неболь­шое срав­нение моделей по зап­росу «photorealistic, cinematic, close view of a redhead woman in 19th century clothing of a woman mechanic fixing a steampunk car» с под­клю­чен­ным кас­томным сти­лем Cinematic: «cinematic angle, cinematic lighting, highly detailed, amazing, finely detailed, more realistic, Ultra HD 32k, cinematic, 4k, footage from an epic movie, clear focus, detailed character design, ultra-high resolution, perfectly composed, UHD».

Вот так отра­бота­ла модель Bastard V1:

А в галерее ниже — резуль­таты дру­гих моделей:

Мо­дели: Softfantasy Dark Edition, Cinevisionxl By Socalguitarist Easily, realisticStockPhoto v10

Мо­дели: raffaelloxl Real People 10, Yggdrasil V2 и mjLnir SDXL Lightning v10

Об­рати вни­мание в пер­вую оче­редь на раз­ницу в ком­позиции. «Тем­ная» Dark Edition разитель­но отли­чает­ся от «гол­ливуд­ской» CineVisionXL; фоторе­алис­тичные модели пыта­ются в реализм, модель Yggdrasil V2 вос­созда­ет атмосфе­ру, исполь­зуя ори­гиналь­ную цве­товую палит­ру, а модель mjLnirSDXLLightning_v10, хоть и напута­ла с паль­цами, сумела сге­нери­ровать кар­тинку все­го за восемь ите­раций (осталь­ным моделям для это­го пот­ребова­лось сорок).

Где скачать модели Ба­зовых моделей раз­ных типов и поколе­ний мно­жес­тво, и далеко не все под­держи­вают­ся в Fooocus. В качес­тве основной можешь взять одну из моделей SDXL 1.0, ска­чать их мож­но с сай­та Civitai. В пра­вом вер­хнем углу сай­та будет зна­чок «филь­тр»; выбери нас­трой­ки, как на скрин­шоте. С такими нас­трой­ками отоб­ража­ются все модели незави­симо от воз­раста (All Time), толь­ко базовые модели (Checkpoint), толь­ко SDXL 1.0. Пос­ледняя нас­трой­ка (All) вклю­чает отоб­ражение как обу­чен­ных моделей (Trained), так и ремик­сов (Merge).

Мо­дели быва­ют двух типов: обу­чен­ные (Trained) и ремик­сы (Merged). Обу­чен­ными обыч­но счи­тают модели, автор которых нат­рениро­вал (обу­чил) модель на том или ином наборе изоб­ражений. Впро­чем, доволь­но час­то обу­чен­ными моделя­ми называ­ют ремик­сы, для которых раз­работ­чик про­вел допол­нитель­ное обу­чение на отно­ситель­но неболь­шом наборе дан­ных.

С ремик­сами про­ще: их авто­ры объ­еди­няют нес­коль­ко раз­ных моделей и лор с задан­ными весовы­ми коэф­фици­ента­ми. Самый прос­той при­мер — добав­ление «фоторе­алис­тичной» лоры в одну из моделей, что допол­нитель­но уве­личит весовые коэф­фици­енты имен­но фотог­рафий.

В зависи­мос­ти от вку­са, чувс­тва меры и мас­терс­тва раз­работ­чиков получа­ются более или менее инте­рес­ные ремик­сы. Моделей — тысячи, переп­робовать все невоз­можно даже теоре­тичес­ки. Ты можешь прос­то отсорти­ровать их по популяр­ности, а можешь вос­поль­зовать­ся моими рекомен­даци­ями.

Универсальные модели, пригодные для реализма

AlbedoBase XL — прек­расно сба­лан­сирован­ная модель, которая уме­ет всё. Мно­гие авто­ры ремик­сов исполь­зуют эту модель в качес­тве осно­вы.

Bastard Lord (SDXL) с сай­та Tensor.Art — одна из луч­ших про­тес­тирован­ных мной моделей. По качес­тву она близ­ка к Midjourney V6. Эта модель — резуль­тат сов­мес­тной работы двух раз­работ­чиков: Freek22 (автор нес­коль­ких моделей семей­ства Norsk) и Afroman4peace (автор мно­гочис­ленных моделей, в том чис­ле отличных моделей Hephaistos и Colossus XL).

Brookers Style XL, она же Reality Check XL, — обу­чен­ная модель с укло­ном в реализм. Спо­соб­на выдавать уни­каль­ные резуль­таты, непохо­жие на работу дру­гих моделей.

Bifröst Project с сай­та Tensor.Art — мощ­ная модель, в сос­тав которой вош­ли как дру­гие модели того же авто­ра (в том чис­ле обу­чен­ные), так и некото­рые сто­рон­ние. Рекомен­дую обра­тить вни­мание и на дру­гие модели это­го авто­ра на том же сай­те или на сай­те Civitai.

CineVisionXL и, что­бы два раза не вста­вать, «фотог­рафичес­кая» ProtoVision XL, «3D-муль­тяш­ная» DynaVisionXL и «ноч­ная» NightVisionXL того же авто­ра — сба­лан­сирован­ные модели, отве­чающие заяв­ленным целям. Нап­ример, в «кинош­ной» CineVisionXL даже самые прос­тые зап­росы выпол­няют­ся так, как буд­то кадр был пос­тавлен гол­ливуд­ским режис­сером — с соот­ветс­тву­ющим осве­щени­ем и динами­кой.

EnvyHyperrealXL01 — сба­лан­сирован­ный ремикс с укло­ном в тур­боре­ализм (не путать с реалис­тичным реализ­мом). Кста­ти, рекомен­дую обра­тить вни­мание и на дру­гие модели того же авто­ра.

raffaelloxlRealPeople — нес­мотря на то что это ремикс, мне не уда­лось пов­торить резуль­таты работы этой модели ни в одной дру­гой. Харак­терные чер­ты модели — детали­зиро­ван­ные лица и тек­сту­ры, высокий мик­рокон­траст.

Realistic Stock Photo — тебе уже дали пер­вую вер­сию этой модели в сос­таве Fooocus, но с тех пор выш­ла вто­рая. Это отличная обу­чен­ная реалис­тичная модель. Раз­ницу меж­ду пер­вой и вто­рой вер­сиями мож­но уви­деть на при­мерах ниже.

При­мер пер­вой вер­сии

При­мер вто­рой вер­сии

SDVN6-RealXL — модель, обу­чен­ная на фотог­рафи­ях лиц. Спо­соб­на выдавать неиз­битые пор­тре­ты, непохо­жие на сге­нери­рован­ных фотомо­делей. Но этим дело не огра­ничи­вает­ся: в модели — пол­ный набор художес­твен­ных средств.

Есть мно­го дру­гих дос­той­ных вни­мания моделей; перечис­лить все невоз­можно, да я и не став­лю такой цели. Есть cherryPickerXL, Hephaistos NextGen, Luna Mia, Softfantasy Dark Edition и мно­го дру­гих инте­рес­ных моделей.

Специализированные модели: аниме

Ани­меш­ные модели отно­сят­ся к спе­циали­зиро­ван­ным, так как они работа­ют с собс­твен­ным син­такси­сом, о чем нуж­но рас­ска­зать под­робнее.