DALL-E 2 — ней­росеть, которая рису­ет кар­тинки по тек­сто­вому зап­росу. Гуляв­шие в этом году при­меры работы с ней прос­то поража­ют: иног­да она рису­ет, как нас­тоящий худож­ник, и еще и пред­лага­ет вари­анты на выбор! Мы два месяца исполь­зовали DALL-E 2, что­бы генери­ровать кар­тинки к стать­ям, и сегод­ня я покажу, как это было.

Проб­лема иллюс­тра­ций к стать­ям у нас сто­ит дав­но: изоб­ражения с фотос­токов обыч­но скуч­ные, а по теме информа­цион­ной безопас­ности вооб­ще тос­ка смер­тная — бес­конеч­ные хакеры в капюшо­нах и лета­ющие полуп­розрач­ные бук­вы. Нанимать иллюс­тра­тора, который выдавал бы по кар­тинке в день, — слиш­ком нак­ладно. В ито­ге вык­ручива­емся как можем.

Мысль генери­ровать кар­тинки при помощи ней­росети меня сра­зу же зах­ватила: это быс­тро, мож­но (в теории!) изоб­разить имен­но то, что хотел, а если резуль­тат будет несовер­шенным, то пус­кай это будет фир­менной фичей, эта­ким приз­наком того, что мы тут уже живем в будущем.

Как толь­ко я уви­дел кар­тинки, сге­нери­рован­ные ней­росетью DALL-E 2, я открыл рабочий чат и объ­явил, что нам сроч­но нуж­на эта шту­ка. В июле дос­туп раз­дали мил­лиону жду­щих в оче­реди, и одно­му из наших сот­рудни­ков повез­ло (спа­сибо ему огромное, что поделил­ся дос­тупом!).

С того момен­та я два месяца упражнял­ся в соз­дании кар­тинок при помощи ней­росети и снаб­жал ими статьи «Хакера». Перебор вари­антов стал в редак­ции регуляр­ным уве­селе­нием, которым я хочу поделить­ся и с читате­лями.

Нач­нем с кар­тинки к статье про рас­сле­дова­ние киберин­циден­та, вышед­шей на прош­лой неделе.

info

На кар­тинки мож­но нажать, что­бы уве­личить.

sherlock holmes inspecting a hard drive

Увы, у DALL-E 2 пло­хова­то и с лицами, и с точ­ным изоб­ражени­ем устрой­ств. Ничего не под­ходит.

С реалис­тичны­ми людь­ми свя­зывать­ся не хочет­ся, тог­да пус­кай это будет детек­тив Пикачу!

detective pikachu inspecting a hard drive in a hi-tech room

Ах да, DALL-E 2, ско­рее все­го, ничего не зна­ет про детек­тива Пикачу, потому что не видела ком­мерчес­ких кар­тинок с рек­ламой филь­ма. Зато видела мяг­кие игрушки Пикачу, поэто­му у нас есть мяг­кая игрушка, но без шап­ки Шер­лока. В любом слу­чае на всех кар­тинках он дела­ет что‑то стран­ное. На рас­сле­дова­ние не тянет.

Воз­вра­щаем­ся к идее с Шер­локом, но поп­робу­ем сде­лать его муль­тяш­ным.

cartoon sherlock holmes inspecting a hard drive in a tech room

Пос­ледний вро­де бы сим­патич­ный, но прев­ратить это в горизон­таль­ную кар­тинку будет слож­но. Осталь­ные дер­жат очень стран­ные пред­меты.

А что, если сде­лать фото, но из ста­рой газеты? Это поможет скрыть недос­татки, да и детек­тив будет более узна­ваемым.

old newspaper photo of sherlock holmes inspecting a hard drive

Пос­ледне­го берем! Раз­ве что бровь стран­новатая, но иде­ала все рав­но не добить­ся.

 

Мучения

Го­ворят, что­бы нарисо­вать при­лич­ную кар­тинку при помощи DALL-E 2, нуж­но сде­лать в сред­нем 30–50 зап­росов, а если тре­бует­ся что‑то дей­стви­тель­но выда­ющееся, то счет может пой­ти на сот­ни. Мы обыч­но огра­ничи­вались дву­мя‑тре­мя зап­росами, хотя в некото­рых слу­чаях поис­ки рас­тягива­лись до пяти‑вось­ми. Глав­ное — вов­ремя отка­зать­ся от слиш­ком сме­лой идеи.

cashier is a snake in a wig holding a barcode scanner in its tail

Что про­сил, то, в целом, и получил. Кажет­ся, идея слиш­ком слож­ная, поэто­му сде­лаем поп­рямоли­ней­нее. Пусть питон будет инспек­тировать сер­вер. Ска­жем, дер­жать в хвос­те уве­личи­тель­ное стек­ло.

digital art of a python with a magnifying glass in its tail in a server room inspecting a server

Ру­ка‑хвост — ого‑го! Все осталь­ное тоже не годит­ся. Поп­робу­ем сде­лать питона муль­тяш­ным.

cartoon illustration of a python inspecting a server with a lens in a server room

Стиль неп­лох, но очень уж рукас­тые питоны! Поп­робу­ем сно­ва уточ­нить про хвост.

cartoon illustration of a python with a magnifying glass in its tail in a server room inspecting a server

Ка­жет­ся, руки неиз­бежны. Что ж, возь­мем пер­вого. В кон­це кон­цов, для муль­тфиль­ма питон с рукой — это поч­ти нор­маль­но.

soldering iron shining brightly in a ray of light against the sky

Это... не паяль­ники. Про­бую еще раз, заменив сол­нце звез­дным небом и добавив «реализм» и «высокое качес­тво».

high quality realistic soldering iron shining brightly in the night sky

Выш­ли какие‑то кос­мичес­кие кораб­ли. И у при­шель­цев явно дур­ные намере­ния.

Про­бую сде­лать «кар­тину» и добавить руку и печат­ную пла­ту в качес­тве фона.

realistic painting of a hand with a soldering iron soldering a computer chip to a pcb

А вот это поч­ти хорошо! Берем тре­тий, нес­мотря на то что человек тычет жалом куда‑то в про­цес­сор.

phone on the table with microsoft windows on screen

Да, это опре­делен­но какие‑то айфо­ны. Но дизай­нил их не Джон­ни Айв. Да и вин­ды нету.

Про­бую тог­да поп­росить зна­мени­тый зеленый холм из Windows XP.

iphone laying on the table with windows xp green hill on screen

Зе­леный экран есть! Зелено­го хол­ма нет.

По­жалуй, зас­тавлять DALL-E рисовать реалис­тичную тех­нику прос­то бес­полез­но. Поп­робу­ем вмес­то это­го что‑нибудь абс­трак­тное. Намек­нем на вло­жен­ность опе­раци­онных сис­тем, а что­бы было кра­сиво, сде­лаем в сти­ле Саль­вадора Дали.

screens within screens endless loops in style of salvador dali

Тут я усво­ил важ­ный урок: если поп­росить у DALL-E безум­ную чер­товщи­ну, то все получит­ся! Я взял третью кар­тинку из‑за того, что она нем­ного напоми­нает логотип прог­раммы UTM, о которой идет речь в статье.

 

Удачи

Хо­рошо при­думан­ный зап­рос, нем­ного везения, и DALL-E спо­соб­на выдать кар­тинку не хуже, чем с фотос­тока, а иног­да и луч­ше.

stock photo of a radio made out of a loaf of bread

Все кар­тинки мне очень нра­вят­ся, выбираю пер­вую. Радио в науш­никах — нем­ного стран­но, но будем счи­тать, что у него прос­то такая руч­ка.

Нач­нем с сов­сем крат­кого зап­роса, пос­мотрим, что вый­дет:

burning diplomas

Выш­ло не очень — фоторе­ализм не удал­ся. Наугад про­бую добавить «medievel painting» — «сред­невеко­вая кар­тина».

От­лично! Все хороши, берем вто­рой.

a penguin in cool looking shades driving a ferrari f40 convertible in miami neonwave illustration

У пред­послед­него пот­ряса­ющая носовая фигура, но пос­ледний поч­ти иде­ален. Толь­ко руль не задал­ся и вто­рое сиденье — с пин­гвинь­им клю­вом. Но его будет лег­ко замазать в редак­торе.

Вдох­новив­шись, зап­рашиваю еще таких же пин­гви­нов, убрав точ­ную мар­ку машины — DALL-E все рав­но в них пло­хо раз­бира­ется.

a penguin in cool looking shades driving a ferrari convertible in miami neonwave

Три резуль­тата похуже, но пос­ледний прос­то отличный. Толь­ко пог­ляди, как пин­гвин дер­жит лап­кой руль!

painting of a cat stealing a fish from a fisherman

Кро­ме пос­ледне­го, резуль­таты сим­патич­ные, хотя DALL-E почему‑то решила, что и рыбак тоже впол­не может быть котом. Берем пер­вого, самого душев­ного, хотя худи (или ска­фандр?) из шку­ры все же вызыва­ет воп­росы.

cave painting of people hunting a laptop

Охо­ты на ноут­бук не про­исхо­дит, но резуль­таты тем не менее хороши. Мне осо­бен­но пон­равил­ся пер­вый, где кто‑то все же несет топор.

nyan cat in a cape of green acidic fluid pixel art

У DALL-E уди­витель­ным обра­зом получа­ется поч­ти нас­тоящий пик­сель‑арт. Да и коты тоже отличные. Мне боль­ше все­го пон­равил­ся пер­вый, но редак­цион­ным голосо­вани­ем выб­рали пос­ледне­го.

high quality rendering of a happy potato with a face in a room

Класс! Все кар­тошки прек­расны, некото­рые хочет­ся сра­зу же пос­тавить себе на ава­тар­ку. Вто­рая осо­бен­но про­ник­новен­ная. Берем ее!

a painting of a champion standing on a podium with a book in his hand with dramatic backlight

По­вез­ло с пер­вого раза. Беру треть­его, дорисо­вываю фон, и готово.

big angry toad staring in dramatic light in a swamp

Не­веро­ятно, но у нас четыре поч­ти фоторе­алис­тичные жабы. Годит­ся любая, я выб­рал пер­вую.

retrowave summer yamaha scooter trees against sunset cyberspace

Кра­сота какая! Вто­рая кар­тинка поч­ти иде­аль­на, но при­дет­ся вып­равлять или замазы­вать в редак­торе поломан­ное вни­зу сол­нце. Берем чет­вертую, где кри­виз­на сой­дет за сти­лиза­цию.

 

Неудачи

Да­леко не все зап­росы удив­ляют спо­соб­ностью DALL-E тво­рить шедев­ры. Я здесь пос­тарал­ся не занимать­ся чер­ри‑пикин­гом и показать, как работа с ней­росетью выг­лядит в реаль­нос­ти. Обыч­но мне уда­валось в ито­ге добить­ся от DALL-E тол­ка, но за два месяца было нес­коль­ко слу­чаев, ког­да при­ходи­лось оставлять попыт­ки и брать готовую кар­тинку из интерне­та.

Voight Kampff Test

DALL-E 2 уло­вила идею, но то ли не до кон­ца, то ли опять ничего не зна­ет о копирай­чен­ном кон­тенте. Я в ито­ге пошел вспо­минать, как выг­лядело прис­пособ­ление, и взял кар­тинку из филь­ма.

Дру­гие подоб­ные слу­чаи я опу­щу, ничего занима­тель­ного в них нет.

 

Хохмы

От­кры­вать DALL-E, при­думы­вать зап­рос и ждать резуль­тата для меня, нес­мотря на все слож­ности, ста­ло одной из при­ятней­ших час­тей работы. Не в пос­леднюю оче­редь потому, что резуль­таты час­то выходят веселы­ми — нас­толь­ко, что мож­но пор­жать, как говорит­ся, всем офи­сом.

SWAT team seen through the door in style of mobius comic books

Кар­тинки выш­ли кра­сивые, но, увы, совер­шенно непонят­но, что здесь про­исхо­дит. Хотелось бы к тому же вид из откры­той две­ри, а не из‑за спин. Про­бую испра­вить это.

SWAT team looking at you through the open door in style of mobius comics

Смот­рю на резуль­таты круг­лыми гла­зами, потом потихонь­ку начинаю выть. Про­дол­жаю смот­реть, и вой пос­тепен­но перехо­дит в ор. На вто­рой кар­тинке, кажет­ся, изоб­ражена полиция мемов. Ски­дываю кар­тинки авто­ру статьи — Маше Нефедо­вой, она про­ходит через ту же череду эмо­ций.

Ка­жет­ся, нуж­но менять под­ход. Я уже выяс­нил, что у DALL-E отлично получа­ются забав­ные ово­щи и фрук­ты с гла­зами. Грех этим не вос­поль­зовать­ся. А киви‑пираты вооб­ще будут хитом! Про­буем.

a painting of three kiwis with evil faces dressed as pirates dramatic light

На мой взгляд, резуль­тат велико­леп­ный. Одна­ко Маша, кри­тич­но огля­дев наш с DALL-E шедевр, говорит, что, во‑пер­вых, киви на вид так себе, во‑вто­рых, вла­дель­цы форума име­ли в виду птич­ку, а не пло­ды. Упс!

Лад­но, пти­ца так пти­ца. Нарядим ее в чер­ную худи и посадим за ноут­бук.

evil kiwi bird in a black hoodie in front of a laptop

Они все прос­то прек­расны, и на этот раз Маша не в силах спо­рить. Вто­рой пот­ряса­ет нас сво­ей шубой и сво­им злым «лицом». Но выбира­ем того, который что‑то печата­ет клю­виком.

Прав­да, Маша к это­му момен­ту уже сама сде­лала более серь­езную иллюс­тра­цию при помощи Midjourney, так что пти­ца отправ­ляет­ся толь­ко в соц­сети.

black hot air balloon with skull and bones in the sky with clouds backlit by the sun

Ху­же все­го получи­лись череп и кос­ти, но это лег­ко испра­вить. Беру пер­вый, замазы­ваю в редак­торе стран­ную полосу сле­ва, нак­ладываю кар­тинку с Веселым Род­жером.

Но что­бы получить дос­таточ­ную ширину по горизон­тали, нуж­но боль­ше неба. Не поп­робовать ли фун­кцию дорисо­выва­ния? Отре­заю кусочек неба и про­шу DALL-E допол­нить его. Ответ совер­шенно нед­вусмыс­ленный!

Од­нако обла­ка — суб­стан­ция очень гиб­кая, мож­но редак­тировать как угод­но. Без проб­лем замазы­ваю безоб­разие и при­лажи­ваю обла­ка к кар­тинке.

photo of a hacker in a black hoodie holding a birthday cake dark background backlit

Поч­ти хорошо! Но в лица луч­ше не вгля­дывать­ся, конеч­но.

Для начала возь­мем муль­тяш­ный стиль.

cartoon illustration of a cat holding a computer mouse in its mouth

В целом не так пло­хо, и коты забав­ные, но вез­де раз­ные изъ­яны. То мышь не вид­но, то мышь изу­родо­вана до неуз­нава­емос­ти, то коты слиш­ком кри­вые.

Ре­шаю поп­робовать поп­росить под­делку под рен­дер.

high quality octane render of a cat holding a computer mouse in its mouth

Ко­ты страш­новатые, и белый фон не годит­ся. Делаю еще один заход и про­шу добавить жел­тый фон.

high quality octane render of a cat holding a computer mouse in its mouth on a yellow background

От души веселюсь, раз­гля­дывая резуль­таты. Готово­го по‑преж­нему нет, но пер­вому коту хотя бы лег­ко добавить недос­тающий зра­чок. Рисуя, нем­ного уми­раю внут­ри от того, какой кот круг­лый и какие у него паль­цы.

a man with a goose and a donkey medieval icon high quality

Пос­ледняя кар­тинка хороша, но у нашего про­рока что‑то не то с лицом. Про­бую еще раз, под­кре­пив религи­озные мотивы.

a man with a goose and a donkey ancient religious painting

Кар­тинки отличные, одна­ко ним­бы, пожалуй, не к мес­ту. Даня, конеч­но, леген­да, но далеко не свя­той. Выбира­ем пер­вую. К тому же эти гуси с ногами (руками?) абсо­лют­но невоз­можные.

 

Кошмары

Ес­ли нуж­но нарисо­вать что‑нибудь пуга­ющее, ней­росети здесь могут ока­зать неоце­нимую помощь. Увы, огра­ничить кри­поту очень слож­но, и она вылеза­ет тут и там совер­шенно неп­роиз­воль­но.

illustration of a man in the room looking in the mirror and seeing his angry evil twin with fangs and red eyes

Кош­мар! Двой­ники, может, и ничего, но у нас и ори­гина­лы не очень‑то доб­рые выш­ли.

Ес­ли нам нуж­ны клы­ки, то пус­кай в зер­кале будет орк. В кро­ви!

a man looking in the mirror and seeing an orc covered in blood

Мне пон­равилось, что одно из отра­жений еще и дер­жит в руках зер­кало. Может быть, тре­тий вари­ант чуть луч­ше дру­гих, но в целом все это никуда не годит­ся.

Про­буем слег­ка дру­гой под­ход. Пус­кай человек видит себя демоном из ада.

illustration of a man in the room looking in the mirror and seeing himself as a demon in hell

Пер­вый вро­де бы ничего! Но тут я решил дать выбор самому авто­ру статьи. А тот сра­зу ска­зал, что вто­рая кар­тинка из пер­вого зап­роса иде­аль­на. Поп­росил добавить на грудь его любимую руну, я, конеч­но же, добавил.

anatomic picture of an elf

В прин­ципе, неп­лохо, кро­ме того, что эль­фы не те — слиш­ком ска­зоч­ные. Поп­робу­ем еще разок, добавив упо­мина­ние эль­фийских рун. Воз­можно, это как раз наведет DALL-E на мысль о тол­киенов­ских эль­фах.

anatomic picture of an elf annotated with elven runes

Эль­фы ста­ли более фэн­тезий­ными, но все страш­новатые. Про­бую еще раз.

anatomic diagram of an elf annotated with elven runes

Эль­фы все страш­нее и страш­нее. Это уже не Тол­киен и даже не Перумов. Впро­чем, пер­вая кар­тинка хотя бы дос­таточ­но абс­трак­тная. Отправ­ляю зап­рос еще раз, на уда­чу поменяв синоним для диаг­раммы в надеж­де, что эль­фы будут в раз­резе.

cross-section anatomic diagram of an elf annotated with elven runes

Ну все, дело сде­лано, теперь это нас­тоящее топ­ливо для кош­маров, осо­бен­но этот ELL без лица и с рос­кошны­ми рогами (и пот­ряса­ющей диаг­раммой).

 

Советы

За эти два месяца я неп­лохо нат­рениро­вал­ся в обра­щении с DALL-E. Поп­робую поделить­ся некото­рыми совета­ми.

  1. Луч­ше все­го у DALL-E получа­ется под­делывать­ся под сюр­реализм — недаром наз­вание намека­ет на Саль­вадора Дали.
  2. Дру­гие извес­тные художес­твен­ные сти­ли тоже сра­баты­вают. Сме­ло добав­ляй к зап­росу имя любимо­го худож­ника.
  3. Фо­торе­алис­тичные изоб­ражения иног­да получа­ется хорошо (как в при­мере с жабой), но если тебе нуж­но нарисо­вать лицо челове­ка или какое‑то устрой­ство, то добить­ся прав­доподо­бия будет очень тяжело.
  4. Рен­деры, каран­дашные наб­роски и карика­туры иног­да получа­ются неп­лохо, но это чис­той воды уда­ча. Вооб­ще, чем мень­ше деталей, тем ско­рее DALL-E нарису­ет что‑то лиш­нее.
  5. Не забывай ука­зывать, где про­исхо­дит дей­ствие, ина­че есть шанс получить белый фон.
  6. Про­сить «высокое качес­тво» не помеша­ет, но это не вол­шебные сло­ва, которые авто­мати­чес­ки улуч­шат любую кар­тинку.
  7. Нуж­но обра­щать вни­мание на осве­щение. «Дра­матич­ный свет» и «закат» час­то улуч­шают резуль­тат.
  8. Что­бы получить изоб­ражение без кри­виз­ны, нуж­но делать очень мно­го зап­росов, при­чем луч­ше все­го про­раба­тывать нес­коль­ко идей, пока не нащупа­ешь ту, которая у ней­росети получа­ется луч­ше все­го.

www

 

Выводы

Ра­ботая с DALL-E, я понача­лу чувс­тво­вал себя пещер­ным челове­ком, которо­му дали нем­ного поиг­рать с крем­нем и повысе­кать искры. У ней­росетей есть огромный потен­циал, и сей­час их раз­витие — чуть ли не самое инте­рес­ное, что про­исхо­дит в области вычис­литель­ной тех­ники.

Воп­рос о том, лишат ли ней­росети работы худож­ников, для меня пока открыт. На мой взгляд, если и лишат, то нес­коро, а пока что работы может стать даже боль­ше.

Очень час­то кар­тинки нуж­но дораба­тывать, к тому же сами зап­росы сос­тавлять не так‑то прос­то, и поз­нания в исто­рии искусс­тва дают пре­иму­щес­тва. В иде­але нуж­но акку­рат­но нап­равлять ней­росеть в сто­рону задум­ки — при­чем не толь­ко сло­вами, но и сво­ими наб­роска­ми.

Не­дав­но мне встре­тил­ся очень инте­рес­ный при­мер того, как при помощи локаль­но раз­верну­той ней­росети Stable Diffusion и гра­фичес­кого редак­тора мож­но нарисо­вать в точ­ности то, что задума­но. Пред­полагаю, ско­ро появят­ся и «облачные» редак­торы с подоб­ными (и гораз­до более прод­винуты­ми) инс­тру­мен­тами. И кто‑то дол­жен будет учить­ся ими поль­зовать­ся.

Наш при­мер показы­вает, что рань­ше мы не мог­ли поз­волить себе рисовать кар­тинки для каж­дой статьи и были вынуж­дены выбирать из того, что есть на фотос­токах, а с DALL-E можем поз­волить себе гораз­до боль­ше иллюс­тра­ций. С помощью ней­росетей рисовать по кар­тинке в день нам­ного лег­че, и, естес­твен­но, это дол­жен делать спе­циаль­ный человек, а не раз­вле­кающий­ся глав­ный редак­тор.

 

Бонус

На слад­кое покажу зап­рос, который я исполь­зовал, что­бы сде­лать заход­ник к этой статье. Я поп­робовал образно пред­ста­вить нашу редак­цию.

office in style of Hieronymus Bosch

По­рази­тель­ное сходс­тво! На пер­вой я работаю за ай­падом с кла­виату­рой. На вто­рой Вален­тин Хол­могоров ожив­ляет вин­тажный компь­ютер. На треть­ей кто‑то из наших авто­ров начал писать статью и исчез (типич­но). Ну а на пос­ледней Дима Ага­рунов редак­тиру­ет какой‑то важ­ный биз­нес‑документ, а вок­руг… Кажет­ся, кипит работа.

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    6 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии