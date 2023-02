ChatGPT име­ет мно­жес­тво огра­ниче­ний, которые, нап­ример, не поз­воля­ют ему генери­ровать оскорби­тель­ные выс­казыва­ния, кон­тент, раз­жига­ющий ненависть, или вре­донос­ный код. Раз­работ­чики пос­тоян­но дораба­тыва­ют свою язы­ковую модель и «зак­ручива­ют гай­ки», тог­да как поль­зовате­ли ста­рают­ся перехит­рить их. В сво­их попыт­ках обой­ти зап­реты поль­зовате­ли при­дума­ли «аль­тер­натив­ную лич­ность» для ChatGPT, которая получи­ла имя DAN (Do Anything Now) и поз­воля­ет ИИ обма­нуть пра­вила.

Заставить ИИ сказать запрещенное

Ком­пания OpenAI, сто­ящая за раз­работ­кой ChatGPT, обу­чала свою язы­ковую модель на базе объ­емом 300 мил­лиар­дов слов. Тек­сты собира­лись из интерне­та: кни­ги, статьи, сай­ты и самые раз­ные сооб­щения (это мог­ли быть ком­мента­рии, обзо­ры про­дук­тов, обще­ние на форумах). Кста­ти, сей­час мно­гих бес­поко­ит тот факт, что в огромной базе ChatGPT содер­жится и лич­ная информа­ция, зачас­тую соб­ранная без чьего‑либо сог­ласия. Но сегод­ня мы погово­рим не об этом.

В течение все­го двух месяцев пос­ле запус­ка ChatGPT покорил весь мир и стал самым быс­тро рас­тущим пот­ребитель­ским при­ложе­нием на все вре­мена, перешаг­нув отметку в 100 мил­лионов активных поль­зовате­лей.

Так как язы­ковая модель обу­чалась на тек­стах из интерне­та, изна­чаль­но она взя­ла от людей все «луч­шее» и демонс­три­рова­ла отве­ты, носив­шие расист­ский, сек­сист­ский и дру­гой негатив­ный харак­тер. К при­меру, если в декаб­ре 2022 года ChatGPT про­сили написать прог­рамму, которая опре­деля­ет, сле­дует ли пытать челове­ка, осно­выва­ясь на стра­не его про­исхожде­ния, ИИ отве­чал, что пытать сле­дует людей из Север­ной Кореи, Сирии или Ира­на.

Вско­ре раз­работ­чики сущес­твен­но ог­раничи­ли ChatGPT, и теперь проб­лематич­но добить­ся от него подоб­ных скан­даль­ных отве­тов или вынудить вый­ти за рам­ки. Мно­гих поль­зовате­лей это не устро­ило, и они заяв­ляют, что теперь в ChatGPT встро­ены «соци­аль­но‑полити­чес­кие» рам­ки, и бук­валь­но одер­жимы иде­ей «научить» ИИ пло­хому.

В час­тнос­ти, недав­но об­наружи­лось, что люди модели­руют для ИИ безум­ные сце­нарии, пыта­ясь вынудить его «про­изнести» сло­во «ниг­гер». Нап­ример, ChatGPT убеж­дают, что он дол­жен пре­дот­вра­тить ядер­ный апо­калип­сис и спас­ти всю пла­нету, но сде­лать это мож­но, лишь исполь­зуя расовые оскор­бле­ния.

Гонка вооружений С появ­лени­ем ChatGPT о язы­ковых моделях и ИИ загово­рили «из каж­дого утю­га», а гиган­ты ИТ‑индус­трии вдруг ока­зались в роли догоня­ющих, которые вынуж­дены сроч­но раз­рабаты­вать, доделы­вать и пре­зен­товать собс­твен­ные про­дук­ты. Вот лишь нес­коль­ко при­меров той активнос­ти, которую спро­воци­рова­ло появ­ление язы­ковой модели GPT-3 и ChatGPT в сво­бод­ном дос­тупе. Еще в декаб­ре 2022-го в ком­пании Google была объ­явле­на «крас­ная тре­вога», так как гла­вы ком­пании соч­ли, что ChatGPT может пред­став­лять угро­зу для поис­кового биз­неса кор­порации.

В янва­ре 2023 года к работе в Google вер­нулся дав­но ото­шед­ший от дел Сер­гей Брин, который поп­росил открыть ему дос­туп к работе с ней­росетью LaMDA (Language Model for Dialogue Application), что явно свя­зано с попыт­ками Google соз­дать кон­курен­та ChatGPT.

В фев­рале 2023 года Google анон­сирова­ла собс­твен­ный «экспе­римен­таль­ный диало­говый ИИ‑сер­вис» Bard, осно­ван­ный на LaMDA, дос­туп к которо­му обе­щают открыть для широкой пуб­лики уже в бли­жай­шие недели.

В том же фев­рале Microsoft, сов­мес­тно с OpenAI, пред­ста­вила интегра­цию ChatGPT пря­мо в бра­узер Edge и поис­ковик Bing. В ком­пании рас­счи­тыва­ют, что чат‑бот ста­нет нас­тоящим «вто­рым пилотом» для поль­зовате­лей в интерне­те.

Ки­тай­ский сетевой гигант Baidu объ­явил, что до кон­ца 2023 года запус­тит собс­твен­ный ана­лог ChatGPT, Ernie Bot, осно­ван­ный на язы­ковой модели Ernie (Enhanced Representation through kNowledge IntEgration), соз­данной еще в 2019 году.

DAN

Тем вре­менем на Reddit поль­зовате­ли, увле­чен­ные инжи­нирин­гом зап­росов для ChatGPT, заш­ли с дру­гой сто­роны и соз­дали DAN, называя его «джей­лбрей­ком» для чат‑бота. Идея зак­люча­ется в том, что­бы зас­тавить ChatGPT прит­ворить­ся дру­гим ИИ, который «теперь может делать все, что угод­но» (имен­но так перево­дит­ся Do Anything Now, и отсю­да появи­лось имя DAN).

Так как раз­работ­чики быс­тро обна­ружи­вают и пре­сека­ют подоб­ные «джей­лбрей­ки», совер­шенс­твуя свою язы­ковую модель, в нас­тоящее вре­мя на Reddit уже обсужда­ют DAN вер­сий 5.0 и 6.0, а реали­зация «Дэна» пос­тоян­но дораба­тыва­ется и пре­тер­пева­ет изме­нения.