Содержание статьи
Что за Flux?
Flux — новейшая базовая модель (а точнее — семейство моделей) генеративного искусственного интеллекта для создания изображений по текстовым описаниям. Flux, созданный покинувшими компанию Stability AI разработчиками, уже предлагает все то, что должна была обеспечить архитектура Stable Diffusion 3, которая до сих пор в подвешенном состоянии.
Модель Flux отличается новым текстовым декодером с 12 миллиардами параметров, что позволяет ей намного увереннее распознавать запросы и точнее следовать им. При обучении модели не было той жесткой цензуры, которая привела к практически полной неработоспособности Stable Diffusion 3 Medium; в результате позы людей у Flux выглядят более естественными. С количеством пальцев на руках дело стало лучше, но проблема побеждена не до конца; добавлена работа с текстом на изображениях — то, что заявлялось как принципиальное отличие Stable Diffusion 3.
Модель существует в трех вариантах:
- FLUX.1 [pro] — полная версия модели, доступная только через API. Да, разработчики тоже хотят кушать, а их инвесторы — получить прибыль;
- FLUX.1 [dev] — самая крупная модель с 12 миллиардами параметров, доступная для локальной установки. Модель открытая, весовые коэффициенты доступны для скачивания и дальнейшего обучения, но с оговорками: лицензия на эту модель некоммерческая; возможность коммерческого использования оговаривается отдельно;
- FLUX.1 [schnell] — дистиллированная турбо‑версия модели, позволяющая создавать изображения всего за четыре шага. Эта модель распространяется по лицензии Apache 2.0, но обучить ее производные, скорее всего, не получится в силу технических ограничений.
Нас интересуют две последние модели — dev и schnell.
А кто разработчики?
О том, что Black Forest Labs состоит из выходцев из Stability AI, не написал только ленивый. Эта команда разработчиков стояла у истоков технологии латентной диффузии, впоследствии покинув Stability AI и основав собственную компанию. На Reddit есть немного дополнительной информации.
Возможности Flux
Flux — гигантская по современным меркам модель, способная воспринимать огромное количество концепций и рисовать в широком диапазоне стилей. На словах это мало отличается от возможностей моделей SDXL, особенно с учетом многочисленных ремиксов и лор. На деле же результаты работы Flux поражают. И ведь это только первая версия базовой модели на основе новой архитектуры. Улучшения наверняка на очереди.
Модель способна работать с текстом, то есть добавлять на картинки надписи в точности, как просили. Кстати, обрати внимание на очки — слабое место SDXL.
Flux неплохо понимает необычные концепции.
Способна воспроизводить уличные сценки (обрати внимание на руки; это исходная генерация без использования восстанавливающих моделей).
Выдает кадры из псевдоисторических голливудских фильмов (на руке с первой попытки — пять пальцев; незамутненное счастье).
И даже рисует иллюстрации для детских книг.
Для всего этого разнообразия не потребовалось ни «бросания костей» в виде многочисленных попыток генерации, ни поиска и скачивания соответствующих лор.
Хочешь попробовать новую модель на своем компьютере? Ни AUTOMATIC1111, ни WebUI Forge для этого не подойдут. На момент написания статьи единственный софт, поддерживающий Flux, — ComfyUI или он же с оболочкой SwarmUI.
Дальше мы рассмотрим продвинутый инструментарий, позволяющий не только получить доступ к большому числу тонких настроек нейросети, но и автоматизировать генерацию высококачественных изображений.
Читай также
Ранее мы уже изучили базовые возможности Stable Diffusion и установку нейросети на компьютер, рассмотрели несколько базовых моделей и научились работать с лорами, стилями и рефайнерами в приложении Fooocus. Это приложение прекрасно подходит для начала работы, позволяя сразу же получить красивые изображения, но довольно скоро пользователь упирается в потолок. В Fooocus нет возможности сразу генерировать картинки в высоком разрешении или автоматически исправлять проблемы с руками и лицами; для этого существуют более продвинутые, но и намного более сложные в использовании варианты, один из которых мы будем изучать. А в прошлой статье мы разобрались еще с одним продвинутым интерфейсом — WebUI reForge.
Comfy и SwarmUI
ComfyUI — одновременно и бэкенд, то есть движок, и фронтенд, то есть интерфейс, для генерации изображений по текстовым описаниям. Движок Comfy — один из лучших, а управление памятью, пожалуй, лучшее из имеющегося на сегодняшний день. В то же время интерфейс ComfyUI своеобразен, сложен в освоении и нравится не всем. Ниже — пример простейшей настройки генерации в Comfy с использованием модели SDXL и рефайнера.
Усложнение условий генерации усложняет и диаграмму. Впрочем, у такого подхода есть и положительные стороны: полный доступ ко всем внутренностям движка и возможность как сохранять, так и скачивать готовые диаграммы‑воркфлоу, позволяющие буквально в несколько кликов повторить то, на создание чего у автора диаграммы ушли многие часы работы.
Если же тебе хочется чего‑то более привычного, то на помощь придет SwarmUI — оболочка для Comfy, интерфейс которой очень похож на A1111. SwarmUI — продукт очередного выходца из Stability AI (интересно, там вообще кто‑нибудь остался?). Его место среди прочих интерфейсов можно описать так:
- Fooocus — простой продукт для начинающих;
- AUTOMATIC1111 — «классический» WebUI, апстрим для разнообразных форков;
- WebUI Forge — форк AUTOMATIC1111 с более высокой скоростью работы и оптимизированным механизмом работы с видеопамятью. На данный момент ведется активная разработка, репозиторий в статусе экспериментального; в продукте будут отрабатываться новые технологии — от интерфейса Gradio 4 до нового движка;
- WebUI reForge — активный форк WebUI Forge, в котором присутствуют как оптимизации Forge, так и новинки из AUTOMATIC1111 и ComfyUI;
- ComfyUI — мощный и отлично оптимизированный продукт с самой широкой совместимостью с различными технологиями диффузии. Интерфейс в стиле блок‑схем — не для всех;
- SwarmUI — оболочка для Comfy, напоминающая WebUI. «Вы находитесь здесь!»
Установка и начало работы
SwarmUI сейчас имеет статус бета‑версии и активно разрабатывается. Готового файла для скачивания пока нет; для установки SwarmUI в Windows тебе придется самостоятельно установить:
- менеджер пакетов WinGet из Microsoft Store;
- Git для Windows;
- DotNet 8 SDK с сайта Microsoft.
После этого скачай .bat-файл установщика и запусти его. Дистрибутив установится в папку SwarmUI. В процессе установки скачается и распакуется архив с портативной версией Comfy, который используется в качестве движка.
Пока не спеши ничего запускать; для работы с Flux тебе придется скачать еще несколько файлов. Процесс описан в документации в разделе Black Forest Labs’ Flux.1 Models.
Продолжение доступно только участникам
Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее
Вариант 2. Открой один материал
Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.
Я уже участник «Xakep.ru»