Stable Diffusion XL до сих пор оста­ется самой популяр­ной архи­тек­турой генера­тив­ного ИИ. Не в пос­леднюю оче­редь популяр­ность SDXL объ­ясня­ется наличи­ем нес­коль­ких круп­ных моделей и мно­гих тысяч ремик­сов, соз­данных для генера­ции самых раз­ных «кар­тинок для взрос­лых».

На сегод­няшний день чис­ло чек‑пой­нтов с рей­тин­гом 18+ на популяр­ных ресур­сах Civitai и Tensor.art крат­но пре­выша­ет количес­тво моделей, не име­ющих пред­став­ления об ана­томи­чес­ких осо­бен­ностях пред­ста­вите­лей homo sapiens. Осо­бен­но замет­ным перекос ста­новит­ся, если отфиль­тро­вать модели по дате пос­ледне­го обновле­ния. Что слу­чилось? У поль­зовате­лей неожи­дан­но изме­нились пред­почте­ния — или же все­го год с неболь­шим назад SDXL прос­то не уме­ла делать то, чего от нее ожи­дала ауди­тория? В этой статье мы рас­смот­рим слож­ный путь, который приш­лось пре­одо­леть пер­вопро­ход­цам, обу­чив­шим дрях­леющую архи­тек­туру новым трю­кам.

 

Чего не будет в этой статье

Так же как и в прош­лой статье, пос­вящен­ной соз­данию изоб­ражений в сти­ле ани­ме, в сегод­няшнем тек­сте не пре­дус­мотре­ны кар­тинки с рей­тин­гом «три икса» — даже за пей­волом. Не будет ссы­лок на модели клас­са 18+, как не будет и под­робных инс­трук­ций или при­меров зап­росов, поз­воля­ющих генери­ровать соот­ветс­тву­ющий кон­тент; в целом те же огра­ниче­ния, что и в прош­лый раз.

 

Обученные модели и ремиксы

В статье «Stable Diffusion XL. Выбира­ем модели, рефай­неры, лоры и сти­ли» я рас­ска­зал о том, что базовые модели быва­ют как обу­чен­ными на новых дан­ных, так и ремик­сами, соз­данны­ми на осно­ве сущес­тву­ющих моделей и лор. С точ­ки зре­ния поль­зовате­ля, обу­чен­ные модели инте­рес­нее: они прив­носят эле­мент уни­каль­нос­ти.

Мо­дели, обу­чен­ные на боль­ших объ­емах дан­ных, вно­сят раз­нооб­разие в резуль­таты генера­ции. Нап­ример, модели, обу­чен­ные на боль­шом количес­тве фотог­рафий с лицами, с боль­шей веро­ятностью сге­нери­руют лицо, которое не при­мель­калось на сот­нях виден­ных тобой изоб­ражений, и наобо­рот: модели‑ремик­сы чаще генери­руют усреднен­ных пер­сонажей со стан­дар­тны­ми, усреднен­ными лицами. Чем боль­ше моделей вхо­дит в сос­тав ремик­са, тем с боль­шей веро­ятностью получив­шаяся в резуль­тате модель будет выдавать резуль­тат, неот­личимый от того, что дела­ют дру­гие модели.

Все это так, но в кон­тек­сте соз­дания изоб­ражений без цен­зуры на пер­вый план выходят сов­сем дру­гие сооб­ражения. Сущес­тву­ет нес­коль­ко (все­го око­ло полуто­ра десят­ков, даже с уче­том рисован­ных моделей) круп­ных базовых моделей, которые в течение дли­тель­ного вре­мени (и мно­жес­тва «эпох») обу­чались на боль­ших мас­сивах изоб­ражений.

Каж­дая такая модель уни­каль­на; при ее исполь­зовании будут получать­ся резуль­таты, замет­но отли­чающиеся от дру­гих. И в то же вре­мя исполь­зовать такие модели на прак­тике, веро­ятно, не сто­ит: как пра­вило, они кап­ризны в пла­не тек­сто­вых зап­росов, а выдава­емый ими резуль­тат при всей уни­каль­нос­ти будет далеким от иде­ала. Это отно­сит­ся и к реалис­тичной базовой модели bigASP, и к «рисован­ной» Pony Diffusion V6, и к базовой модели Illustrious 0.1 и 1.0, и даже к обу­чен­ным на осно­ве Illustrious круп­ным моделям NoobAI и RouWei, соз­датели которых пот­ратили сущес­твен­ные ресур­сы на улуч­шение ори­гина­лов, о которых рас­ска­зыва­лось в пре­дыду­щей статье.

Со вре­менем опре­дели­лись как более, так и менее удач­ные ком­бинации моделей, при вклю­чении которых в сос­тав ремик­са вза­имно ком­пенси­руют­ся их недос­татки. Для моделей на базе Pony чис­ло ремик­сов исчисля­ется мно­гими сот­нями; мно­гие из них не толь­ко ста­били­зиру­ют исходную базовую модель, но и ком­пенси­руют ее недос­татки — такие как сла­бая работа с фоном.

Мо­делей на осно­ве Illustrious (а точ­нее, на осно­ве ее про­изводной NoobAI) тоже сде­лано мно­жес­тво, и прак­тичес­ки все они спо­соб­ны соз­давать нам­ного более качес­твен­ные резуль­таты, чем ори­гиналь­ные базовые модели. Впро­чем, сей­час речь не о них, ри­сован­ные модели мы под­робно рас­смот­рели в прош­лый раз. Сегод­ня же мы погово­рим о борь­бе с цен­зурой, оста­ваясь в рам­ках фотог­рафичес­кого реализ­ма и архи­тек­туры SDXL.

 

Цензура и борьба с ней: ранние этапы

Ар­хитек­тура Stable Diffusion XL (SDXL) выш­ла пол­тора года назад, в июле 2023 года. Прак­тичес­ки сра­зу появи­лась и пер­вая обу­чен­ная модель на ее осно­ве — RunDiffusion XL, вышед­шая уже в августе того же года. Эти модели соз­давались в ком­пани­ях, ори­енти­рован­ных на получе­ние при­были, и потому не поз­воляли генери­ровать кон­тент «для взрос­лых».

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    0 комментариев
    Межтекстовые Отзывы
    Посмотреть все комментарии