Ком­пания Black Forest Labs, осно­ван­ная выход­цами из Stability AI (раз­работ­чик Stable Diffusion), без пред­варитель­ных анон­сов выпус­тила новую модель генера­тив­ного искусс­твен­ного интеллек­та Flux. Релиз взор­вал сооб­щес­тво генера­тив­ного ИИ: все раз­говоры теперь толь­ко о новой модели. И она того сто­ит! Давай раз­берем­ся, как ее исполь­зовать и на что она спо­соб­на.
 

Что за Flux?

Flux — новей­шая базовая модель (а точ­нее — семей­ство моделей) генера­тив­ного искусс­твен­ного интеллек­та для соз­дания изоб­ражений по тек­сто­вым опи­сани­ям. Flux, соз­данный покинув­шими ком­панию Stability AI раз­работ­чиками, уже пред­лага­ет все то, что дол­жна была обес­печить архи­тек­тура Stable Diffusion 3, которая до сих пор в под­вешен­ном сос­тоянии.

Мо­дель Flux отли­чает­ся новым тек­сто­вым декоде­ром с 12 мил­лиар­дами парамет­ров, что поз­воля­ет ей нам­ного уве­рен­нее рас­позна­вать зап­росы и точ­нее сле­довать им. При обу­чении модели не было той жес­ткой цен­зуры, которая при­вела к прак­тичес­ки пол­ной нерабо­тос­пособ­ности Stable Diffusion 3 Medium; в резуль­тате позы людей у Flux выг­лядят более естес­твен­ными. С количес­твом паль­цев на руках дело ста­ло луч­ше, но проб­лема побеж­дена не до кон­ца; добав­лена работа с тек­стом на изоб­ражени­ях — то, что заяв­лялось как прин­ципи­аль­ное отли­чие Stable Diffusion 3.

Мо­дель сущес­тву­ет в трех вари­антах:

  • FLUX.1 [pro] — пол­ная вер­сия модели, дос­тупная толь­ко через API. Да, раз­работ­чики тоже хотят кушать, а их инвесто­ры — получить при­быль;
  • FLUX.1 [dev] — самая круп­ная модель с 12 мил­лиар­дами парамет­ров, дос­тупная для локаль­ной уста­нов­ки. Модель откры­тая, весовые коэф­фици­енты дос­тупны для ска­чива­ния и даль­нейше­го обу­чения, но с ого­вор­ками: лицен­зия на эту модель не­ком­мерчес­кая; воз­можность ком­мерчес­кого исполь­зования ого­вари­вает­ся отдель­но;
  • FLUX.1 [schnell] — дис­тилли­рован­ная тур­бо‑вер­сия модели, поз­воля­ющая соз­давать изоб­ражения все­го за четыре шага. Эта модель рас­простра­няет­ся по лицен­зии Apache 2.0, но обу­чить ее про­изводные, ско­рее все­го, не получит­ся в силу тех­ничес­ких огра­ниче­ний.

Нас инте­ресу­ют две пос­ледние модели — dev и schnell.

А кто разработчики?

О том, что Black Forest Labs сос­тоит из выход­цев из Stability AI, не написал толь­ко ленивый. Эта коман­да раз­работ­чиков сто­яла у исто­ков тех­нологии латен­тной диф­фузии, впос­ледс­твии покинув Stability AI и осно­вав собс­твен­ную ком­панию. На Reddit есть нем­ного до­пол­нитель­ной информа­ции.

 

Возможности Flux

Flux — гигант­ская по сов­ремен­ным мер­кам модель, спо­соб­ная вос­при­нимать огромное количес­тво кон­цепций и рисовать в широком диапа­зоне сти­лей. На сло­вах это мало отли­чает­ся от воз­можнос­тей моделей SDXL, осо­бен­но с уче­том мно­гочис­ленных ремик­сов и лор. На деле же резуль­таты работы Flux поража­ют. И ведь это толь­ко пер­вая вер­сия базовой модели на осно­ве новой архи­тек­туры. Улуч­шения навер­няка на оче­реди.

Мо­дель спо­соб­на работать с тек­стом, то есть добав­лять на кар­тинки над­писи в точ­ности, как про­сили. Кста­ти, обра­ти вни­мание на очки — сла­бое мес­то SDXL.

Flux неп­лохо понима­ет необыч­ные кон­цепции.

Спо­соб­на вос­про­изво­дить улич­ные сцен­ки (обра­ти вни­мание на руки; это исходная генера­ция без исполь­зования вос­ста­нав­лива­ющих моделей).

Вы­дает кад­ры из псев­доис­торичес­ких гол­ливуд­ских филь­мов (на руке с пер­вой попыт­ки — пять паль­цев; незамут­ненное счастье).

И даже рису­ет иллюс­тра­ции для дет­ских книг.

Для все­го это­го раз­нооб­разия не пот­ребова­лось ни «бро­сания кос­тей» в виде мно­гочис­ленных попыток генера­ции, ни поис­ка и ска­чива­ния соот­ветс­тву­ющих лор.

Хо­чешь поп­робовать новую модель на сво­ем компь­юте­ре? Ни AUTOMATIC1111, ни WebUI Forge для это­го не подой­дут. На момент написа­ния статьи единс­твен­ный софт, под­держи­вающий Flux, — ComfyUI или он же с обо­лоч­кой SwarmUI.

Даль­ше мы рас­смот­рим прод­винутый инс­тру­мен­тарий, поз­воля­ющий не толь­ко получить дос­туп к боль­шому чис­лу тон­ких нас­тро­ек ней­росети, но и авто­мати­зиро­вать генера­цию высоко­качес­твен­ных изоб­ражений.

Читай также

Ра­нее мы уже изу­чили базовые воз­можнос­ти Stable Diffusion и ус­танов­ку ней­росети на компь­ютер, рас­смот­рели нес­коль­ко базовых моделей и на­учи­лись работать с лорами, сти­лями и рефай­нерами в при­ложе­нии Fooocus. Это при­ложе­ние прек­расно под­ходит для начала работы, поз­воляя сра­зу же получить кра­сивые изоб­ражения, но доволь­но ско­ро поль­зователь упи­рает­ся в потолок. В Fooocus нет воз­можнос­ти сра­зу генери­ровать кар­тинки в высоком раз­решении или авто­мати­чес­ки исправ­лять проб­лемы с руками и лицами; для это­го сущес­тву­ют более прод­винутые, но и нам­ного более слож­ные в исполь­зовании вари­анты, один из которых мы будем изу­чать. А в прош­лой статье мы разоб­рались еще с одним прод­винутым интерфей­сом — WebUI reForge.

 

Comfy и SwarmUI

ComfyUI — одновре­мен­но и бэкенд, то есть дви­жок, и фрон­тенд, то есть интерфейс, для генера­ции изоб­ражений по тек­сто­вым опи­сани­ям. Дви­жок Comfy — один из луч­ших, а управле­ние памятью, пожалуй, луч­шее из име­юще­гося на сегод­няшний день. В то же вре­мя интерфейс ComfyUI сво­еоб­разен, сло­жен в осво­ении и нра­вит­ся не всем. Ниже — при­мер прос­тей­шей нас­трой­ки генера­ции в Comfy с исполь­зовани­ем модели SDXL и рефай­нера.

Ус­ложне­ние усло­вий генера­ции усложня­ет и диаг­рамму. Впро­чем, у такого под­хода есть и положи­тель­ные сто­роны: пол­ный дос­туп ко всем внут­реннос­тям движ­ка и воз­можность как сох­ранять, так и ска­чивать готовые диаг­раммы‑ворк­флоу, поз­воля­ющие бук­валь­но в нес­коль­ко кли­ков пов­торить то, на соз­дание чего у авто­ра диаг­раммы ушли мно­гие часы работы.

Ес­ли же тебе хочет­ся чего‑то более при­выч­ного, то на помощь при­дет SwarmUI — обо­лоч­ка для Comfy, интерфейс которой очень похож на A1111. SwarmUI — про­дукт оче­ред­ного выход­ца из Stability AI (инте­рес­но, там вооб­ще кто‑нибудь остался?). Его мес­то сре­ди про­чих интерфей­сов мож­но опи­сать так:

  • Fooocus — прос­той про­дукт для начина­ющих;
  • AUTOMATIC1111 — «клас­сичес­кий» WebUI, апс­трим для раз­нооб­разных фор­ков;
  • WebUI Forge — форк AUTOMATIC1111 с более высокой ско­ростью работы и опти­мизи­рован­ным механиз­мом работы с виде­опа­мятью. На дан­ный момент ведет­ся активная раз­работ­ка, репози­торий в ста­тусе экспе­римен­таль­ного; в про­дук­те будут отра­баты­вать­ся новые тех­нологии — от интерфей­са Gradio 4 до нового движ­ка;
  • WebUI reForge — активный форк WebUI Forge, в котором при­сутс­тву­ют как опти­миза­ции Forge, так и новин­ки из AUTOMATIC1111 и ComfyUI;
  • ComfyUI — мощ­ный и отлично опти­мизи­рован­ный про­дукт с самой широкой сов­мести­мостью с раз­личны­ми тех­нологи­ями диф­фузии. Интерфейс в сти­ле блок‑схем — не для всех;
  • SwarmUI — обо­лоч­ка для Comfy, напоми­нающая WebUI. «Вы находи­тесь здесь!»
 

Установка и начало работы

SwarmUI сей­час име­ет ста­тус бета‑вер­сии и активно раз­рабаты­вает­ся. Готово­го фай­ла для ска­чива­ния пока нет; для уста­нов­ки SwarmUI в Windows тебе при­дет­ся самос­тоятель­но уста­новить:

Пос­ле это­го ска­чай .bat-файл уста­нов­щика и запус­ти его. Дис­три­бутив уста­новит­ся в пап­ку SwarmUI. В про­цес­се уста­нов­ки ска­чает­ся и рас­паку­ется архив с пор­татив­ной вер­сией Comfy, который исполь­зует­ся в качес­тве движ­ка.

По­ка не спе­ши ничего запус­кать; для работы с Flux тебе при­дет­ся ска­чать еще нес­коль­ко фай­лов. Про­цесс опи­сан в до­кумен­тации в раз­деле Black Forest Labs’ Flux.1 Models.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    1 Комментарий
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии