Ге­нери­ровать кар­тинки по тек­сто­вому опи­санию — прос­то, но толь­ко если исполь­зовать готовый онлай­новый генера­тор. Уста­новить ИИ на свой компь­ютер куда слож­нее. В этой статье раз­берем­ся, какие быва­ют модели, чем отли­чает­ся Stable Diffusion от Flux, что такое AuraFlow и что вооб­ще нуж­но, что­бы делать кар­тинки у себя, — без вся­ких зап­ретов и огра­ниче­ний.

В этой статье я поп­робовал сни­зить «порог вхож­дения», отве­тив на самые прос­тые воп­росы, которые воз­ника­ют прак­тичес­ки у всех, кто пытал­ся разоб­рать­ся в тер­миноло­гии генера­тив­ного ИИ.

 

Статьи

В «Хакере» опуб­ликова­на серия моих ста­тей с рекомен­даци­ями по выбору, уста­нов­ке и нас­трой­ке раз­ных моделей. Спи­сок ста­тей будет попол­нять­ся, как и дру­гие спис­ки в этом матери­але.

  1. Stable Diffusion XL. Генери­руем кар­тинки ней­росетью на сво­ем компь­юте­ре
  2. Stable Diffusion XL. Выбира­ем модели, рефай­неры, лоры и сти­ли
  3. ReForge. Улуч­шаем кар­тинки, генери­руемые Stable Diffusion
  4. FLUX.1 и SwarmUI. Генери­руем кар­тинки новой откры­той моделью
 

Что нужно, чтобы начать создавать картинки?

Те­бе пот­ребу­ется компь­ютер (желатель­но — с виде­окар­той Nvidia), софт и базовая модель (чек­поинт). Как софт, так и модели совер­шенно бес­плат­ны; от тебя пот­ребу­ется толь­ко вре­мя и уси­лия, что­бы разоб­рать­ся в про­цес­се.

 

Видеокарта

Луч­ше все­го с генера­тив­ным искусс­твен­ным интеллек­том работа­ют виде­окар­ты Nvidia. Это не зна­чит, что кар­ты AMD или Intel (или даже чипы Apple Silicon со встро­енной гра­фикой) сов­сем нель­зя исполь­зовать, прос­то их под­дер­жка во мно­гих прог­раммах огра­ниче­на, и обход огра­ниче­ний пот­ребу­ет решения допол­нитель­ных проб­лем.

По­мимо архи­тек­туры виде­окар­ты, для работы ИИ кри­тичес­ким парамет­ром явля­ется объ­ем выделен­ной виде­опа­мяти (VRAM). Для ста­рых моделей дос­таточ­но 8–12 ГБ; для сов­ремен­ных и тех, что дол­жны появить­ся в бли­жай­шем будущем, нуж­но уже 16–24 ГБ. Это не зна­чит, что новые модели не запус­тятся на ста­рых виде­окар­тах, — прос­то работать ИИ будет при­мер­но на 30–50% мед­леннее, чем если бы у виде­окар­ты той же модели было дос­таточ­но памяти.

 

Софт

Прак­тичес­ки весь софт для генера­тив­ных ИИ бес­пла­тен, дос­тупен в исходных кодах и работа­ет в окне бра­узе­ра с исполь­зовани­ем биб­лиоте­ки gradio.

  1. Fooocus: иде­аль­ный про­дукт для начина­ющих и поль­зовате­лей онлай­новых сер­висов, мак­сималь­но близ­ко подошед­ший к иде­оло­гии «одной кноп­ки». Под­держи­вает толь­ко модели SDXL, зато пред­лага­ет авто­мати­чес­кое рас­ширение зап­росов локаль­ной язы­ковой моделью (GPT-подоб­ный LLM), что рез­ко повыша­ет раз­нооб­разие и кра­соту сге­нери­рован­ных кар­тинок. Прак­тичес­ки не тре­бует уста­нов­ки и сов­сем не тре­бует нас­трой­ки: дос­таточ­но рас­паковать архив и запус­тить. Даже модель Fooocus ска­чает самос­тоятель­но.
  2. AUTOMATIC1111: клас­сичес­кий кон­серва­тив­ный WebUI, апс­трим для раз­нооб­разных фор­ков. Силь­ные сто­роны — ста­биль­ность и образцо­вая под­дер­жка пла­гинов‑рас­ширений (в фор­ках на осно­ве Forge некото­рые рас­ширения для A1111 не работа­ют).
  3. Stable Diffusion web UI for AMDGPUs: форк A1111 для виде­окарт AMD. В отли­чие от ори­гина­ла, под­держи­вает тех­нологии DirectML, тран­сля­тор ZLUDA, Onnx Runtime и опти­миза­ции Olive.
  4. WebUI Forge: форк AUTOMATIC1111 с более высокой ско­ростью работы и опти­мизи­рован­ным механиз­мом работы с виде­опа­мятью. На дан­ный момент ведет­ся активная раз­работ­ка, репози­торий в ста­тусе экспе­римен­таль­ного; в про­дук­те будут отра­баты­вать­ся новые тех­нологии — от интерфей­са gradio 4 до нового движ­ка. Помимо архи­тек­туры Stable Diffusion, Forge так­же под­держи­вает Flux. Некото­рые пла­гины от A1111 не будут работать, что час­тично ком­пенси­рует­ся наличи­ем ряда встро­енных рас­ширений, выпол­няющих ана­логич­ные фун­кции.
  5. WebUI reForge: активно раз­рабаты­ваемый форк опи­сан­ного выше WebUI Forge. Здесь при­сутс­тву­ют как опти­миза­ции Forge, так и новин­ки из AUTOMATIC1111 и ComfyUI. Сегод­ня имен­но этот форк работа­ет с моделя­ми SD1.5/SDXL/CosXL быс­трее и ста­биль­нее про­чих. Исполь­зует ста­рую вер­сию gradio, поэто­му сов­мести­мость с пла­гина­ми A1111 луч­ше, чем в ори­гиналь­ном Forge.
  6. ComfyUI: мощ­ный, рас­ширя­емый и отлично опти­мизи­рован­ный про­дукт с самой широкой под­дер­жкой раз­ных архи­тек­тур и тех­нологий. Интерфейс в сти­ле блок‑схем — не для всех, одна­ко он же поз­воля­ет сох­ранять и исполь­зовать как свои, так и сто­рон­ние блок‑схе­мы в виде готовых про­ектов. Я не рекомен­дую начинать зна­комс­тво с генера­тив­ными ИИ с этой обо­лоч­ки из‑за слож­ности осво­ения. Имен­но Comfy пер­вым получа­ет под­дер­жку новых архи­тек­тур и моделей — час­то бук­валь­но в день их выхода.
  7. SwarmUI: обо­лоч­ка для Comfy, напоми­нающая WebUI. Сов­меща­ет удоб­ный интерфейс и «все­ядность» Comfy. Об этом про­дук­те я под­робно писал.

Есть и дру­гие вари­анты.

  1. InvokeAI: один из нем­ногих про­дук­тов, работа­ющих как самос­тоятель­ное при­ложе­ние, а не через бра­узер. По воз­можнос­тям — что‑то сред­нее меж­ду A1111 и Fooocus с мак­сималь­но удоб­ным поль­зователь­ским интерфей­сом. Для прод­винутых поль­зовате­лей есть режим наподо­бие Comfy.
  2. StabilityMatrix: надс­трой­ка, из которой мож­но уста­нав­ливать раз­личные веб‑интерфей­сы и рулить ими.
  3. Draw Things: экс­клю­зив­ный UI для Mac/iOS. Опти­маль­ный софт для чипов Apple Silicon. Под­держи­вает модели как Stable Diffusion, так и Flux.
  4. SD.Next: еще один форк A1111 с под­дер­жкой мно­жес­тва моделей и архи­тек­тур. К сожале­нию, про­дукт сло­жен в нас­трой­ке, а ста­биль­ность работы оставля­ет желать луч­шего. В сос­тав фор­ка вхо­дит мно­жес­тво пре­дус­танов­ленных пла­гинов.
  5. Krita Diffusion: фак­тичес­ки, это ней­росете­вой пла­гин к опен­сор­сно­му гра­фичес­кому редак­тору Krita. Поз­воля­ет как уда­лять, дорисо­вывать и перери­совы­вать объ­екты в самом изоб­ражении, так и «рас­ширять» кар­тинку в сто­роны, убе­дитель­но дорисо­вывая отсутс­тву­ющий кон­тент.

Что из это­го выб­рать?

Ес­ли у тебя Mac, нач­ни с Draw Things. Если прос­тота исполь­зования «из короб­ки» и качес­твен­ные изоб­ражения даже по самым прос­тым тек­сто­вым зап­росам для тебя важ­нее рас­ширя­емос­ти и прод­винутых воз­можнос­тей — ставь Fooocus. Для моделей SDXL отлично под­ходят WebUI reForge или SwarmUI; для Flux — SwarmUI или WebUI Forge. Ори­гиналь­ный WebUI Forge подой­дет любите­лям экспе­римен­тировать с новей­шими тех­нологи­ями. Если у тебя виде­окар­та AMD, поп­робуй форк WebUI AMDGPU.

info

A1111, WebUI Forge и reForge мож­но уста­нав­ливать парал­лель­но в раз­ные катало­ги. При этом все три дис­три­бути­ва могут исполь­зовать общие пап­ки с моделя­ми раз­ных типов. Для это­го пре­дус­мотре­ны парамет­ры коман­дной стро­ки (файл webui-user.bat), такие как: --models-dir, --ckpt-dir, --lora-dir, --clip-models-path, --embeddings-dir.

 

Модели и архитектуры

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    4 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии