Содержание статьи
В этой статье я попробовал снизить «порог вхождения», ответив на самые простые вопросы, которые возникают практически у всех, кто пытался разобраться в терминологии генеративного ИИ.
Статьи
В «Хакере» опубликована серия моих статей с рекомендациями по выбору, установке и настройке разных моделей. Список статей будет пополняться, как и другие списки в этом материале.
- Stable Diffusion XL. Генерируем картинки нейросетью на своем компьютере
- Stable Diffusion XL. Выбираем модели, рефайнеры, лоры и стили
- ReForge. Улучшаем картинки, генерируемые Stable Diffusion
- FLUX.1 и SwarmUI. Генерируем картинки новой открытой моделью
Что нужно, чтобы начать создавать картинки?
Тебе потребуется компьютер (желательно — с видеокартой Nvidia), софт и базовая модель (чекпоинт). Как софт, так и модели совершенно бесплатны; от тебя потребуется только время и усилия, чтобы разобраться в процессе.
Видеокарта
Лучше всего с генеративным искусственным интеллектом работают видеокарты Nvidia. Это не значит, что карты AMD или Intel (или даже чипы Apple Silicon со встроенной графикой) совсем нельзя использовать, просто их поддержка во многих программах ограничена, и обход ограничений потребует решения дополнительных проблем.
Помимо архитектуры видеокарты, для работы ИИ критическим параметром является объем выделенной видеопамяти (VRAM). Для старых моделей достаточно 8–12 ГБ; для современных и тех, что должны появиться в ближайшем будущем, нужно уже 16–24 ГБ. Это не значит, что новые модели не запустятся на старых видеокартах, — просто работать ИИ будет примерно на 30–50% медленнее, чем если бы у видеокарты той же модели было достаточно памяти.
Софт
Практически весь софт для генеративных ИИ бесплатен, доступен в исходных кодах и работает в окне браузера с использованием библиотеки gradio.
- Fooocus: идеальный продукт для начинающих и пользователей онлайновых сервисов, максимально близко подошедший к идеологии «одной кнопки». Поддерживает только модели SDXL, зато предлагает автоматическое расширение запросов локальной языковой моделью (GPT-подобный LLM), что резко повышает разнообразие и красоту сгенерированных картинок. Практически не требует установки и совсем не требует настройки: достаточно распаковать архив и запустить. Даже модель Fooocus скачает самостоятельно.
- AUTOMATIC1111: классический консервативный WebUI, апстрим для разнообразных форков. Сильные стороны — стабильность и образцовая поддержка плагинов‑расширений (в форках на основе Forge некоторые расширения для A1111 не работают).
- Stable Diffusion web UI for AMDGPUs: форк A1111 для видеокарт AMD. В отличие от оригинала, поддерживает технологии DirectML, транслятор ZLUDA, Onnx Runtime и оптимизации Olive.
- WebUI Forge: форк AUTOMATIC1111 с более высокой скоростью работы и оптимизированным механизмом работы с видеопамятью. На данный момент ведется активная разработка, репозиторий в статусе экспериментального; в продукте будут отрабатываться новые технологии — от интерфейса gradio 4 до нового движка. Помимо архитектуры Stable Diffusion, Forge также поддерживает Flux. Некоторые плагины от A1111 не будут работать, что частично компенсируется наличием ряда встроенных расширений, выполняющих аналогичные функции.
- WebUI reForge: активно разрабатываемый форк описанного выше WebUI Forge. Здесь присутствуют как оптимизации Forge, так и новинки из AUTOMATIC1111 и ComfyUI. Сегодня именно этот форк работает с моделями SD1.5/SDXL/CosXL быстрее и стабильнее прочих. Использует старую версию gradio, поэтому совместимость с плагинами A1111 лучше, чем в оригинальном Forge.
- ComfyUI: мощный, расширяемый и отлично оптимизированный продукт с самой широкой поддержкой разных архитектур и технологий. Интерфейс в стиле блок‑схем — не для всех, однако он же позволяет сохранять и использовать как свои, так и сторонние блок‑схемы в виде готовых проектов. Я не рекомендую начинать знакомство с генеративными ИИ с этой оболочки из‑за сложности освоения. Именно Comfy первым получает поддержку новых архитектур и моделей — часто буквально в день их выхода.
- SwarmUI: оболочка для Comfy, напоминающая WebUI. Совмещает удобный интерфейс и «всеядность» Comfy. Об этом продукте я подробно писал.
Есть и другие варианты.
- InvokeAI: один из немногих продуктов, работающих как самостоятельное приложение, а не через браузер. По возможностям — что‑то среднее между A1111 и Fooocus с максимально удобным пользовательским интерфейсом. Для продвинутых пользователей есть режим наподобие Comfy.
- StabilityMatrix: надстройка, из которой можно устанавливать различные веб‑интерфейсы и рулить ими.
- Draw Things: эксклюзивный UI для Mac/iOS. Оптимальный софт для чипов Apple Silicon. Поддерживает модели как Stable Diffusion, так и Flux.
- SD.Next: еще один форк A1111 с поддержкой множества моделей и архитектур. К сожалению, продукт сложен в настройке, а стабильность работы оставляет желать лучшего. В состав форка входит множество предустановленных плагинов.
- Krita Diffusion: фактически, это нейросетевой плагин к опенсорсному графическому редактору Krita. Позволяет как удалять, дорисовывать и перерисовывать объекты в самом изображении, так и «расширять» картинку в стороны, убедительно дорисовывая отсутствующий контент.
Что из этого выбрать?
Если у тебя Mac, начни с Draw Things. Если простота использования «из коробки» и качественные изображения даже по самым простым текстовым запросам для тебя важнее расширяемости и продвинутых возможностей — ставь Fooocus. Для моделей SDXL отлично подходят WebUI reForge или SwarmUI; для Flux — SwarmUI или WebUI Forge. Оригинальный WebUI Forge подойдет любителям экспериментировать с новейшими технологиями. Если у тебя видеокарта AMD, попробуй форк WebUI AMDGPU.
info
A1111, WebUI Forge и reForge можно устанавливать параллельно в разные каталоги. При этом все три дистрибутива могут использовать общие папки с моделями разных типов. Для этого предусмотрены параметры командной строки (файл webui-user.
), такие как: --models-dir
, --ckpt-dir
, --lora-dir
, --clip-models-path
, --embeddings-dir
.
Модели и архитектуры
Продолжение доступно только участникам
Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».
Присоединяйся к сообществу «Xakep.ru»!
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее