Ког­да в августе это­го года выш­ла модель FLUX.1 [dev], некото­рые поль­зовате­ли были разоча­рова­ны излишне «циф­ровым» видом изоб­ражений, отсутс­твие негатив­ных клю­чевых слов нак­ладыва­ло серь­езные огра­ниче­ния на потен­циал модели, а повышен­ные тре­бова­ния к железу огор­чили вла­дель­цев виде­окарт пре­дыду­щих поколе­ний. Эти и мно­гие дру­гие огра­ниче­ния были успешно пре­одо­лены — но появи­лись новые.
 

Поддержка Flux в WebUI Forge

WebUI Forge — интерфейс к Stable Diffusion, любимый мно­гими за его высокую ско­рость и удобс­тво исполь­зования. Пер­вая вер­сия Forge выш­ла в фев­рале 2024 года, пос­ле чего мно­го месяцев не получа­ла обновле­ний. Дли­тель­ное отсутс­твие раз­работ­ки при­вело к соз­данию фор­ка ReForge, который под­робно опи­сан в статье «ReForge. Улуч­шаем кар­тинки, генери­руемые Stable Diffusion». Но вот ори­гиналь­ный раз­работ­чик Forge вер­нулся — и анон­сировал круп­ное обновле­ние про­екта. В спис­ке изме­нений — переход на Gradio 4 (ста­ло нем­ного удоб­нее, но ряд рас­ширений перес­тал работать), исполь­зование пос­ледней вер­сии PyTorch (ста­ло еще быс­трее), появ­ление двух сотен встро­енных сти­лей по при­меру Fooocus того же авто­ра (под­робнее — в мо­ей статье о нем) и новый механизм рас­пре­деле­ния виде­опа­мяти, поз­воля­ющий дос­тичь мак­сималь­но воз­можной ско­рос­ти генера­ции на кон­крет­ном железе.

Нас же инте­ресу­ет добав­ление в WebUI Forge под­дер­жки модели FLUX. Теперь мож­но исполь­зовать все воз­можные вари­анты модели от пол­ноцен­ной 16-бит­ной до 4-бит­ной NF4. Более того, мож­но отдель­но выбирать VAE и модель (или сра­зу нес­коль­ко моделей) тек­сто­вого декоде­ра.

Как это работа­ет? Поч­ти точ­но так же, как любая дру­гая базовая модель, за исклю­чени­ем нового парамет­ра Flux Distilled Guidance (в comfy/SwarmUI он называ­ется Flux Guidance Scale), о котором будет чуть ниже. Дос­таточ­но перек­лючить интерфейс в режим flux, выб­рать модель из спис­ка и ука­зать тре­буемые VAE и тек­сто­вые декоде­ры.

 

NF4, FP16, FP8, Q8, GGUF: в чем разница?

Ес­ли ты будешь поль­зовать­ся Flux, то силь­но облегчишь себе жизнь, если запом­нишь, в чем раз­ница меж­ду раз­личны­ми пред­став­лени­ями модели.

NF4 — это самый быс­трый фор­мат в пла­не ско­рос­ти вывода резуль­татов, но и самый неп­ред­ска­зуемый в пла­не раз­нооб­разия ком­позиции по срав­нению с дру­гими фор­матами.

GGUF — сжа­тый фор­мат, в котором может быть пред­став­лена модель. В отли­чие от фор­мата safetensors, файл GGUF может содер­жать толь­ко одну сеть (диф­фузи­онную или тек­сто­вый декодер). В рам­ках фор­мата GGUF все вер­сии Q8, Q6 и так далее вплоть до Q1 — это вари­анты кван­тования моделей в поряд­ке убы­вания качес­тва и тре­бова­ний к железу. GGUF — самый мед­ленный фор­мат: при его исполь­зовании в режиме реаль­ного вре­мени пря­мо во вре­мя генера­ции про­изво­дит­ся рас­паков­ка час­тей модели. Зато качес­тво таких моделей мак­сималь­но приб­лижа­ется к резуль­татам фор­матов FP8 и FP16. GGUF сов­местим со все­ми виде­окар­тами, вклю­чая GTX, а млад­шие вари­анты мож­но запус­кать даже на виде­окар­тах с миниму­мом памяти.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    1 Комментарий
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии