Вайфу-генераторы. Разбираемся с моделями для создания картинок в стиле аниме

Содержание статьи

Чего не будет в этой статье
Аниме: базовые модели и ремиксы
Pony
Illustrious
Animagine
Pony Diffusion: во что превратилась модель для генерации пушистых зверушек
Score_9, score_8_up и прочие неприятности
Illustrious: «неэтичная» альтернатива от корейских разработчиков
Animagine XL 4.0
Запрягаем в одну телегу коня и трепетную лань: фотореалистичное аниме
Слегка реалистичное аниме и 3DCG
А фотореалистичные модели Illustrious бывают?
А фотореалистичные модели Animagine?
Скрестить ужа с ежом
Ближайшее будущее
Pony
Animagine
Illustrious
NoobAI
Выводы

Когда‑то давно генерация картинок в стилистике аниме была уделом онлайновых сервисов — таких как NovelAI. Утечка модели NAI послужила мощным толчком к развитию локальных аниме‑моделей с архитектурой Stable Diffusion 1.5, а Stable Diffusion XL получила сразу несколько конкурирующих моделей, качество которых вплотную подбирается к качеству онлайновых конкурентов.

Зайди в раздел моделей на популярных ресурсах Civitai или TensorArt, и ты увидишь десятки и сотни моделей в стиле аниме. Большинство из них помечены как Pony или Illustrious; модели в рамках основной архитектуры SDXL попадаются все реже. В этой статье я расскажу о том, что такое Pony, чем отличается от нее Illustrious, с какой стороны подойти к Animagine и почему для таких картинок плохо годится обычная SDXL.

Чего не будет в этой статье

Несмотря на то что разговор пойдет на «взрослые» темы, в этой статье не будет ни одного изображения с рейтингом «три икса» — даже за пейволом. Не будет ссылок на модели класса 18+, как не будет и подробных инструкций или примеров запросов, позволяющих генерировать соответствующий контент.

Если не будет картинок, о чем тогда говорить? Во‑первых, картинки все‑таки будут — в качестве иллюстрации работы крупных моделей. Во‑вторых, тема глубокого обучения моделей искусственного интеллекта интересна сама по себе, а полученный опыт не только оказался применим в обучении вполне цензурных моделей на новых архитектурах, но и привел к публикации нескольких серьезных научных работ и созданию новых семплеров и механизмов для улучшения генерации изображений.

Говорить мы будем о технических проблемах и сложностях, с которыми столкнулись разработчики на этапе глубокого обучения SDXL. О сделанных ошибках, в результате которых целый класс моделей (а это многие сотни чекпойнтов) обладает «дистиллированным», выжженным декодером текстовых запросов. О возврате к запросам на основе формальных тегов в новых поколениях моделей, для которых запросы на естественном языке играют вспомогательную роль. О моделях, обученных на описаниях, сгенерированных другими моделями — теми, что распознают элементы изображения и описывают взаимодействия между ними.

Поговорим и о том, почему обученные модели в чистом виде, как правило, уступают в качестве моделям‑ремиксам. Обсудим механизмы zero-terminal SNR и v-prediction, получившие популярность в результате публикации NovelAI, а вовсе не после того, как Stability AI (разработчики архитектуры Stable Diffusion) выпустили модель CosXL, в которой эти технологии были впервые реализованы в рамках SDXL, и уж тем более не после выхода жестко цензурированной версии SD 2.0-v 768.

Аниме: базовые модели и ремиксы

Базовых моделей для генерации аниме‑изображений всего три, однако разобраться в их взаимозависимостях не так‑то просто. Попробую помочь тебе немного сориентироваться в этом хаосе.

Итак, три базовые модели для картинок в стиле аниме — это Pony, Illustrious и Animagine.

Pony

Прародитель всех моделей Pony — это Pony Diffusion V6 XL за авторством AstraliteHeart. Эта модель настолько сильно отличалась от любых других моделей с архитектурой Stable Diffusion, что удостоилась собственной категории на Civitai.

На основе Pony создано бесчисленное количество лор, ремиксов и обученных моделей. Так, в крупной обученной модели 4th tail (anime/hentai) разработчик попытался вернуть отсутствующие в основной модели Pony теги художников и персонажей; похожие цели преследовали и авторы других подобных моделей aaaautismPonyFinetune и cashmoneyAnime. Впрочем, на фоне многих сотен альтернатив эти модели затерялись; вполне возможно, что их части ты встретишь в составе ремиксов.

Illustrious

Модель Illustrious не использует Pony; она основана на другой, гораздо более слабой аниме‑модели Kohaku XL, разработчик которой задался целью постепенно обучить новую модель, используя обычные игровые видеокарты. Illustrious получила полноценное обучение на профессиональном оборудовании; эта модель и модели на ее основе также выделены в собственную категорию на Civitai.

А вот дальше начинаются сложности. Изначально разработчики Illustrious выпустили лишь версию 0.1 (последующие версии уже обучены и будут выпущены в нужное время), результаты работы которой в чистом виде не поражают воображение.

Компания Laxhar Dream Lab провела дополнительное обучение, выпустив модели NoobAI EPS 1.1 и NoobAI v-pred 1.0. Обе эти модели были моментально интегрированы в состав множества ремиксов.

Помимо Noob, вышло два других обученных варианта: RouWei и Initium. По какой‑то причине они не получили большой популярности, но вошли в состав некоторых ремиксов.

Далее вышла версия Illustrious 1.0, получившая возможность в один проход генерировать картинки в высоком разрешении (до 2 Мп).

В результате сейчас в рамках категории Illustrious существует сразу несколько параллельных ответвлений, обученных независимыми разработчиками: Illustrious 0.1, NoobAI EPS 1.1, NoobAI v-pred 1.0, RouWei, Initium и, наконец, Illustrious 1.0.

Animagine

Animagine — еще одна крупная модель для создания аниме‑изображений. Версии Animagine 3.0 и 3.1 представляли умеренный интерес, но версию Animagine 4.0 разработчики обучили с нуля, не используя предшествующие версии моделей. В результате «четверка» получилась весьма интересной и перспективной.

Поговорим обо всех этих моделях подробно.

Pony Diffusion: во что превратилась модель для генерации пушистых зверушек

Желание создавать изображения в стиле аниме у пользователей генеративного искусственного интеллекта было всегда, но возможности для этого долгое время были ограниченными. Базовая модель Stable Diffusion могла и может создавать их, но качество и разнообразие оставляет желать лучшего. Кроме того, Stable Diffusion просто не знает ни имен художников, ни популярных персонажей, ни тем более концепций взаимодействий.

warning

Все без исключения модели на основе Pony Diffusion способны создавать самые роскомнадзорные картинки. Если тебя это смущает, бросай читать и прочти молитву.

В результате сеть оказалась переполнена картинками, выполненными в одном и том же стиле: в качестве «аниме» предлагались бесконечные изображения жукоглазых млекопитающих в стиле псевдо-3D. Несмотря на то что млекопитающие могли быть разными, практически все модели выдавали одно и то же лицо двенадцатилетней девочки‑подростка, которое быстро примелькалось.

Прорыв в генерации аниме‑изображений совершил разработчик под ником AstraliteHeart в начале 2024 года. Арендовав на три месяца несколько мощных рабочих станций, он провел глубокое обучение базовой модели SDXL, использовав изображения из обширного набора Danbooru Anime Dataset (в ход пошла лишь небольшая их часть), аннотированных тегами стандарта Danbooru. Результат получился более чем убедительный: модель точно следовала запросу, генерируя именно то, на что указывали теги, и прекрасно понимала и воспроизводила всевозможные варианты взаимодействий между персонажами, включая экзотические.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

Вариант 2. Открой один материал

Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.

← Ранее Ботнет Ballista атакует уязвимые роутеры TP-Link Archer

Далее → Apple: уязвимость нулевого дня в WebKit применялась в изощренных атаках