Ког­да‑то дав­но генера­ция кар­тинок в сти­лис­тике ани­ме была уде­лом онлай­новых сер­висов — таких как NovelAI. Утеч­ка модели NAI пос­лужила мощ­ным тол­чком к раз­витию локаль­ных ани­ме‑моделей с архи­тек­турой Stable Diffusion 1.5, а Stable Diffusion XL получи­ла сра­зу нес­коль­ко кон­куриру­ющих моделей, качес­тво которых вплот­ную под­бира­ется к качес­тву онлай­новых кон­курен­тов.

Зай­ди в раз­дел моделей на популяр­ных ресур­сах Civitai или TensorArt, и ты уви­дишь десят­ки и сот­ни моделей в сти­ле ани­ме. Боль­шинс­тво из них помече­ны как Pony или Illustrious; модели в рам­ках основной архи­тек­туры SDXL попада­ются все реже. В этой статье я рас­ска­жу о том, что такое Pony, чем отли­чает­ся от нее Illustrious, с какой сто­роны подой­ти к Animagine и почему для таких кар­тинок пло­хо годит­ся обыч­ная SDXL.

 

Чего не будет в этой статье

Нес­мотря на то что раз­говор пой­дет на «взрос­лые» темы, в этой статье не будет ни одно­го изоб­ражения с рей­тин­гом «три икса» — даже за пей­волом. Не будет ссы­лок на модели клас­са 18+, как не будет и под­робных инс­трук­ций или при­меров зап­росов, поз­воля­ющих генери­ровать соот­ветс­тву­ющий кон­тент.

Ес­ли не будет кар­тинок, о чем тог­да говорить? Во‑пер­вых, кар­тинки все‑таки будут — в качес­тве иллюс­тра­ции работы круп­ных моделей. Во‑вто­рых, тема глу­боко­го обу­чения моделей искусс­твен­ного интеллек­та инте­рес­на сама по себе, а получен­ный опыт не толь­ко ока­зал­ся при­меним в обу­чении впол­не цен­зурных моделей на новых архи­тек­турах, но и при­вел к пуб­ликации нес­коль­ких серь­езных науч­ных работ и соз­данию новых сем­пле­ров и механиз­мов для улуч­шения генера­ции изоб­ражений.

Го­ворить мы будем о тех­ничес­ких проб­лемах и слож­ностях, с которы­ми стол­кну­лись раз­работ­чики на эта­пе глу­боко­го обу­чения SDXL. О сде­лан­ных ошиб­ках, в резуль­тате которых целый класс моделей (а это мно­гие сот­ни чек­пой­нтов) обла­дает «дис­тилли­рован­ным», выж­женным декоде­ром тек­сто­вых зап­росов. О воз­вра­те к зап­росам на осно­ве фор­маль­ных тегов в новых поколе­ниях моделей, для которых зап­росы на естес­твен­ном язы­ке игра­ют вспо­мога­тель­ную роль. О моделях, обу­чен­ных на опи­сани­ях, сге­нери­рован­ных дру­гими моделя­ми — теми, что рас­позна­ют эле­мен­ты изоб­ражения и опи­сыва­ют вза­имо­дей­ствия меж­ду ними.

По­гово­рим и о том, почему обу­чен­ные модели в чис­том виде, как пра­вило, усту­пают в качес­тве моделям‑ремик­сам. Обсу­дим механиз­мы zero-terminal SNR и v-prediction, получив­шие популяр­ность в резуль­тате пуб­ликации NovelAI, а вов­се не пос­ле того, как Stability AI (раз­работ­чики архи­тек­туры Stable Diffusion) выпус­тили модель CosXL, в которой эти тех­нологии были впер­вые реали­зова­ны в рам­ках SDXL, и уж тем более не пос­ле выхода жес­тко цен­зуриро­ван­ной вер­сии SD 2.0-v 768.

 

Аниме: базовые модели и ремиксы

Ба­зовых моделей для генера­ции ани­ме‑изоб­ражений все­го три, одна­ко разоб­рать­ся в их вза­имо­зави­симос­тях не так‑то прос­то. Поп­робую помочь тебе нем­ного сори­енти­ровать­ся в этом хаосе.

Итак, три базовые модели для кар­тинок в сти­ле ани­ме — это Pony, Illustrious и Animagine.

 

Pony

Пра­роди­тель всех моделей Pony — это Pony Diffusion V6 XL за авторс­твом AstraliteHeart. Эта модель нас­толь­ко силь­но отли­чалась от любых дру­гих моделей с архи­тек­турой Stable Diffusion, что удос­тоилась собс­твен­ной катего­рии на Civitai.

На осно­ве Pony соз­дано бес­числен­ное количес­тво лор, ремик­сов и обу­чен­ных моделей. Так, в круп­ной обу­чен­ной модели 4th tail (anime/hentai) раз­работ­чик попытал­ся вер­нуть отсутс­тву­ющие в основной модели Pony теги худож­ников и пер­сонажей; похожие цели прес­ледова­ли и авто­ры дру­гих подоб­ных моделей aaaautismPonyFinetune и cashmoneyAnime. Впро­чем, на фоне мно­гих сотен аль­тер­натив эти модели затеря­лись; впол­не воз­можно, что их час­ти ты встре­тишь в сос­таве ремик­сов.

 

Illustrious

Мо­дель Illustrious не исполь­зует Pony; она осно­вана на дру­гой, гораз­до более сла­бой ани­ме‑модели Kohaku XL, раз­работ­чик которой задал­ся целью пос­тепен­но обу­чить новую модель, исполь­зуя обыч­ные игро­вые виде­окар­ты. Illustrious получи­ла пол­ноцен­ное обу­чение на про­фес­сиональ­ном обо­рудо­вании; эта модель и модели на ее осно­ве так­же выделе­ны в собс­твен­ную катего­рию на Civitai.

А вот даль­ше начина­ются слож­ности. Изна­чаль­но раз­работ­чики Illustrious выпус­тили лишь вер­сию 0.1 (пос­леду­ющие вер­сии уже обу­чены и будут выпуще­ны в нуж­ное вре­мя), резуль­таты работы которой в чис­том виде не поража­ют вооб­ражение.

Ком­пания Laxhar Dream Lab про­вела допол­нитель­ное обу­чение, выпус­тив модели NoobAI EPS 1.1 и NoobAI v-pred 1.0. Обе эти модели были момен­таль­но интегри­рова­ны в сос­тав мно­жес­тва ремик­сов.

По­мимо Noob, выш­ло два дру­гих обу­чен­ных вари­анта: RouWei и Initium. По какой‑то при­чине они не получи­ли боль­шой популяр­ности, но вош­ли в сос­тав некото­рых ремик­сов.

Да­лее выш­ла вер­сия Illustrious 1.0, получив­шая воз­можность в один про­ход генери­ровать кар­тинки в высоком раз­решении (до 2 Мп).

В резуль­тате сей­час в рам­ках катего­рии Illustrious сущес­тву­ет сра­зу нес­коль­ко парал­лель­ных ответ­вле­ний, обу­чен­ных незави­симы­ми раз­работ­чиками: Illustrious 0.1, NoobAI EPS 1.1, NoobAI v-pred 1.0, RouWei, Initium и, наконец, Illustrious 1.0.

 

Animagine

Animagine — еще одна круп­ная модель для соз­дания ани­ме‑изоб­ражений. Вер­сии Animagine 3.0 и 3.1 пред­став­ляли уме­рен­ный инте­рес, но вер­сию Animagine 4.0 раз­работ­чики обу­чили с нуля, не исполь­зуя пред­шес­тву­ющие вер­сии моделей. В резуль­тате «чет­верка» получи­лась весь­ма инте­рес­ной и пер­спек­тивной.

По­гово­рим обо всех этих моделях под­робно.

 

Pony Diffusion: во что превратилась модель для генерации пушистых зверушек

Же­лание соз­давать изоб­ражения в сти­ле ани­ме у поль­зовате­лей генера­тив­ного искусс­твен­ного интеллек­та было всег­да, но воз­можнос­ти для это­го дол­гое вре­мя были огра­ничен­ными. Базовая модель Stable Diffusion мог­ла и может соз­давать их, но качес­тво и раз­нооб­разие оставля­ет желать луч­шего. Кро­ме того, Stable Diffusion прос­то не зна­ет ни имен худож­ников, ни популяр­ных пер­сонажей, ни тем более кон­цепций вза­имо­дей­ствий.

warning

Все без исклю­чения модели на осно­ве Pony Diffusion спо­соб­ны соз­давать самые рос­комнад­зорные кар­тинки. Если тебя это сму­щает, бро­сай читать и проч­ти молит­ву.

В резуль­тате сеть ока­залась перепол­нена кар­тинка­ми, выпол­ненны­ми в одном и том же сти­ле: в качес­тве «ани­ме» пред­лагались бес­конеч­ные изоб­ражения жуког­лазых мле­копи­тающих в сти­ле псев­до-3D. Нес­мотря на то что мле­копи­тающие мог­ли быть раз­ными, прак­тичес­ки все модели выдава­ли одно и то же лицо две­над­цатилет­ней девоч­ки‑под­рос­тка, которое быс­тро при­мель­калось.

Про­рыв в генера­ции ани­ме‑изоб­ражений совер­шил раз­работ­чик под ником AstraliteHeart в начале 2024 года. Арен­довав на три месяца нес­коль­ко мощ­ных рабочих стан­ций, он про­вел глу­бокое обу­чение базовой модели SDXL, исполь­зовав изоб­ражения из обширно­го набора Danbooru Anime Dataset (в ход пош­ла лишь неболь­шая их часть), анно­тиро­ван­ных тегами стан­дарта Danbooru. Резуль­тат получил­ся более чем убе­дитель­ный: модель точ­но сле­дова­ла зап­росу, генери­руя имен­но то, на что ука­зыва­ли теги, и прек­расно понима­ла и вос­про­изво­дила все­воз­можные вари­анты вза­имо­дей­ствий меж­ду пер­сонажа­ми, вклю­чая экзо­тичес­кие.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    1 Комментарий
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии