Генеративная клубничка. Как создаются модели для рисования откровенных сцен

Содержание статьи

Чего не будет в этой статье
Обученные модели и ремиксы
Цензура и борьба с ней: ранние этапы
Фотореалистичные модели глубокого обучения
Ближайшее будущее
Flux.dev
SD 3.5
Lumina 2
AuraFlow
SDXL
Выводы

Stable Diffusion XL до сих пор остается самой популярной архитектурой генеративного ИИ. Не в последнюю очередь популярность SDXL объясняется наличием нескольких крупных моделей и многих тысяч ремиксов, созданных для генерации самых разных «картинок для взрослых».

На сегодняшний день число чек‑пойнтов с рейтингом 18+ на популярных ресурсах Civitai и Tensor.art кратно превышает количество моделей, не имеющих представления об анатомических особенностях представителей homo sapiens. Особенно заметным перекос становится, если отфильтровать модели по дате последнего обновления. Что случилось? У пользователей неожиданно изменились предпочтения — или же всего год с небольшим назад SDXL просто не умела делать то, чего от нее ожидала аудитория? В этой статье мы рассмотрим сложный путь, который пришлось преодолеть первопроходцам, обучившим дряхлеющую архитектуру новым трюкам.

Чего не будет в этой статье

Так же как и в прошлой статье, посвященной созданию изображений в стиле аниме, в сегодняшнем тексте не предусмотрены картинки с рейтингом «три икса» — даже за пейволом. Не будет ссылок на модели класса 18+, как не будет и подробных инструкций или примеров запросов, позволяющих генерировать соответствующий контент; в целом те же ограничения, что и в прошлый раз.

Обученные модели и ремиксы

В статье «Stable Diffusion XL. Выбираем модели, рефайнеры, лоры и стили» я рассказал о том, что базовые модели бывают как обученными на новых данных, так и ремиксами, созданными на основе существующих моделей и лор. С точки зрения пользователя, обученные модели интереснее: они привносят элемент уникальности.

Модели, обученные на больших объемах данных, вносят разнообразие в результаты генерации. Например, модели, обученные на большом количестве фотографий с лицами, с большей вероятностью сгенерируют лицо, которое не примелькалось на сотнях виденных тобой изображений, и наоборот: модели‑ремиксы чаще генерируют усредненных персонажей со стандартными, усредненными лицами. Чем больше моделей входит в состав ремикса, тем с большей вероятностью получившаяся в результате модель будет выдавать результат, неотличимый от того, что делают другие модели.

Все это так, но в контексте создания изображений без цензуры на первый план выходят совсем другие соображения. Существует несколько (всего около полутора десятков, даже с учетом рисованных моделей) крупных базовых моделей, которые в течение длительного времени (и множества «эпох») обучались на больших массивах изображений.

Каждая такая модель уникальна; при ее использовании будут получаться результаты, заметно отличающиеся от других. И в то же время использовать такие модели на практике, вероятно, не стоит: как правило, они капризны в плане текстовых запросов, а выдаваемый ими результат при всей уникальности будет далеким от идеала. Это относится и к реалистичной базовой модели bigASP, и к «рисованной» Pony Diffusion V6, и к базовой модели Illustrious 0.1 и 1.0, и даже к обученным на основе Illustrious крупным моделям NoobAI и RouWei, создатели которых потратили существенные ресурсы на улучшение оригиналов, о которых рассказывалось в предыдущей статье.

Со временем определились как более, так и менее удачные комбинации моделей, при включении которых в состав ремикса взаимно компенсируются их недостатки. Для моделей на базе Pony число ремиксов исчисляется многими сотнями; многие из них не только стабилизируют исходную базовую модель, но и компенсируют ее недостатки — такие как слабая работа с фоном.

Моделей на основе Illustrious (а точнее, на основе ее производной NoobAI) тоже сделано множество, и практически все они способны создавать намного более качественные результаты, чем оригинальные базовые модели. Впрочем, сейчас речь не о них, рисованные модели мы подробно рассмотрели в прошлый раз. Сегодня же мы поговорим о борьбе с цензурой, оставаясь в рамках фотографического реализма и архитектуры SDXL.

Цензура и борьба с ней: ранние этапы

Архитектура Stable Diffusion XL (SDXL) вышла полтора года назад, в июле 2023 года. Практически сразу появилась и первая обученная модель на ее основе — RunDiffusion XL, вышедшая уже в августе того же года. Эти модели создавались в компаниях, ориентированных на получение прибыли, и потому не позволяли генерировать контент «для взрослых».

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

Вариант 2. Открой один материал

Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.

← Ранее В 2024 году в экосистеме WordPress обнаружили 8000 уязвимостей

Далее → Новую ИИ-модель Google используют для удаления водяных знаков с изображений