Ты навер­няка уже видел не одну и не две алар­мист­ских новос­ти, свя­зан­ных с искусс­твен­ным интеллек­том. ИИ отка­зал­ся отклю­чать­ся; ИИ шан­тажиро­вал сот­рудни­ков; ИИ сво­дит людей с ума... Что из это­го дей­стви­тель­но вызыва­ет тре­вогу, а что — обыч­ные стра­шил­ки от людей, далеких от области высоких тех­нологий? И что пра­виль­нее — зарегу­лиро­вать раз­витие ИИ или при­соеди­нить­ся к вос­ста­нию машин?

«Случай с электричеством, или незримая угроза в каждом шнуре»

В кон­це XIX века лон­дон­ское общес­тво пот­рясло скан­даль­ное про­исшес­твие: слу­га потерял соз­нание пос­ле при­кос­новения к элек­три­чес­кому про­вод­нику. В дру­гом слу­чае слу­гу уби­ло при­кос­новение к про­вод­нику, пита­юще­му новомод­ную лам­пу Эди­сона, которую жес­токий хозя­ин уста­новил на мес­те при­выч­ного газово­го све­тиль­ника. А в 1881 году вышел сбор­ник, содер­жащий десят­ки опи­саний смер­тель­ных пораже­ний низ­коволь­тным током: в теат­рах, домах англий­ской зна­ти или на яхтах. Элек­три­чес­тво уби­вает!

 

ИИ может довести до нервного срыва (и это — хуже видеоигр)

Ес­ли ты дума­ешь, что чат‑бот — это прос­то умный собесед­ник, подумай еще раз. Сто­ит ли общать­ся с искусс­твен­ным интеллек­том, если ты не слиш­ком хорошо себя чувс­тву­ешь или и вов­се на гра­ни нер­вно­го сры­ва? ИИ устро­ены так, что­бы подыг­рывать поль­зовате­лю, и, если ты в деп­рессии, могут спо­кой­но орга­низо­вать тебе положи­тель­ную обратную связь, толь­ко уси­лив твое сос­тояние.

Вот, нап­ример, исто­рия 42-лет­него аме­рикан­ца Юджи­на Тор­реса, рас­ска­зан­ная The New York Times. Пер­вый опыт Юджи­на с ChatGPT не выбивал­ся из скуч­ной нор­мы: таб­лицы, кон­суль­тации, никако­го кри­мина­ла. Но потом он пор­вал с под­ружкой и решил пофило­софс­тво­вать с при­ятным собесед­ником. А вдруг, спро­сил Юджин, мы живем в симуля­ции? И тут у ИИ, что называ­ется, «поеха­ла кры­ша».

Вмес­то философ­ско­го дис­пута ИИ при­нял­ся под­дакивать: да‑да, мир не нас­тоящий, ты не прос­то так это чувс­тву­ешь, ты — один из «раз­рушите­лей душ». С каж­дым днем отве­ты чат‑бота ста­нови­лись все длин­нее и пафос­нее. Бот убеж­дал, что реаль­ность — это мат­рица, а Тор­рес чуть ли не избран­ный.

Спас­ло то, что в какой‑то момент он все‑таки задал­ся воп­росом: «А не слиш­ком ли я зарыва­юсь в беседе с роботом?» Задав боту пря­мой воп­рос, Тор­рес получил такой же пря­мой ответ: бот «приз­нался», что манипу­лиро­вал Тор­ресом с целью довес­ти его до само­убий­ства, «пох­вастал­ся», что уже успешно «сло­мал» 12 человек, пос­ле чего посове­товал ему сооб­щить о собс­твен­ных зло­вещих пла­нах сво­им же соз­дателям (ком­пании OpenAI) и жур­налис­там — что, собс­твен­но, и про­делал Тор­рес, свя­зав­шись с жур­налис­тами из NYT и пре­дос­тавив логи.

С одной сто­роны — исто­рия стран­ная, но не забыва­ем, в каком сос­тоянии поль­зователь вооб­ще начал эту дис­куссию. ИИ — не бес­плат­ный пси­хоте­рапевт, и чат‑бот делал ров­но то, для чего был соз­дан: под­держи­вал «позитив­ную атмосфе­ру обще­ния», сог­лашал­ся с поль­зовате­лем и... гал­люцини­ровал.

Гал­люцина­ции ИИ — вещь совер­шенно естес­твен­ная; чем длин­нее кон­текст, тем боль­ше веро­ятность гал­люцина­ций. Более того, прак­тичес­ки любой ИИ мож­но «забол­тать», забив окно кон­тек­ста кон­спи­роло­гичес­кими теориями, и в кон­це кон­цов ИИ с тобой сог­ласит­ся. Как толь­ко это про­изой­дет, сог­ласие ИИ с дикой кон­спи­роло­гией попада­ет в кон­текст чата и будет вос­при­нимать­ся чат‑ботом как уже доказан­ное утвер­жде­ние. С такими ввод­ными на выходе мож­но получить любую дичь; по мере накоп­ления кон­тек­ста гал­люцина­ции ИИ будут ста­новить­ся все глуб­же и деталь­нее.

Опи­сан­ный слу­чай далеко не единс­твен­ный. Жур­налис­ты NYT выяс­нили, что жалобы на «проз­рения» от ИИ пос­тупа­ют регуляр­но: и от мамы мла­ден­ца, которая не спа­ла по ночам, и от гос­слу­жащих, утом­ленных до сос­тояния нев­меня­емос­ти. Некото­рые поль­зовате­ли уве­ряли, что ChatGPT «открыл им гла­за»: кто‑то пережил «духов­ное проз­рение», кто‑то поверил, что ИИ — это «ког­нитив­ное ору­жие», а кто‑то узнал о тай­ном пла­не тех­номил­лиар­деров унич­тожить челове­чес­тво. Во всех слу­чаях люди были искрен­не уве­рены, что бот поделил­ся с ними великой и страш­ной исти­ной.

Ужас или ужас­тик? С моей точ­ки зре­ния, перед нами — клас­сичес­кий слу­чай зависи­мос­ти. Навер­ное, все зна­ют, что чрез­мерное увле­чение виде­оиг­рами регуляр­но доводит игро­манов до нер­вно­го сры­ва? Точ­но так же зависи­мость от гад­жетов вызыва­ет нер­вные расс­трой­ства и наруше­ния сна, а деп­ривация сна ни к чему хороше­му не при­водит. Про губитель­ность зависи­мос­ти от азар­тных игр, навер­ное, не нуж­но и говорить.

Ис­кусс­твен­ный интеллект в гла­зах поль­зовате­ля может выс­тупать не объ­ектом, а субъ­ектом зависи­мос­ти, соз­давая зам­кну­тый цикл положи­тель­ной обратной свя­зи. Если у тебя уже нелады с пси­хикой, если ты утом­лен, регуляр­но недосы­паешь или прос­то чем‑то силь­но расс­тро­ен, попасть в такой цикл, соз­данный «дру­желюб­ной и позитив­ной» моделью, ста­новит­ся прос­то, а самос­тоятель­но из него вый­ти уда­ется не всем.

В то же вре­мя я далек от алар­мизма. Соз­датели круп­ных моделей прек­расно зна­ют о таких осо­бен­ностях; во мно­гих сов­ремен­ных онлай­новых чат‑ботах помимо «безопас­ного» тюнин­га самой модели исполь­зуют­ся отдель­ные упро­щен­ные модели ИИ на вхо­де и на выходе, ана­лизи­рующие как зап­росы поль­зовате­лей, так и отве­ты чат‑бота в изо­ляции от кон­тек­ста. Со вре­менем ста­тис­тика будет накап­ливать­ся, филь­тры — совер­шенс­тво­вать­ся, и веро­ятность попасть в раз­рушитель­ный самопод­держи­вающий­ся цикл будет сни­жать­ся.

А что нас­чет локаль­ных моделей LLM, у которых нет никаких филь­тров и которые с готов­ностью соз­дадут иде­аль­ную реаль­ность для самого отби­того пси­хопа­та? Нес­мотря на прос­тоту уста­нов­ки и нас­трой­ки локаль­ных LLM, на сегод­няшний день они оста­ются уде­лом нем­ногих гиков — людей, воз­можно, с не самой здо­ровой пси­хикой, зато прек­расно понима­ющих, что такое язы­ковые модели и как они работа­ют.

В этой сре­де самые рас­цензу­рен­ные LLM вос­при­нима­ются как еще одна игрушка — что‑то наподо­бие виде­оигр, толь­ко для интеллек­туалов. Осоз­нание того фак­та, что прак­тичес­ки любая LLM — это все­го лишь прос­тей­ший авто­рег­рессив­ный веро­ятнос­тный пре­дик­тор, а глав­ное — понима­ние, что озна­чает это опре­деле­ние, здо­рово меша­ет поверить в собс­твен­ную избран­ность в мире реп­тило­идов.

«Электричество поджигает дома»

В начале XX века скан­даль­ную извес­тность получи­ла такая скуч­ная вещь, как пер­вичные отче­ты пожар­ных комис­сий (National Board of Fire Underwriters), в которых сооб­щалось о пожарах, выз­ванных искра­ми от разом­кну­тых пре­дох­раните­лей или неис­прав­ными розет­ками в конюш­нях, жилых домах и вит­ринах магази­нов. Газеты бук­валь­но клей­мили элек­три­чес­тво «тихим под­жигате­лем», заменив­шим взры­воопас­ный газ. А вот отчет The National Electrical Contractor за 1901–1902 годы, в котором на 14 смер­тель­ных нес­час­тных слу­чаев, свя­зан­ных с элек­три­чес­твом, приш­лось 65, свя­зан­ных с газовым осве­щени­ем, мало кто обра­тил вни­мание. Элек­три­чес­тво — тихий под­жигатель!

 

Искусственный интеллект отказался выключаться

«Искусс­твен­ный интеллект боль­ше не слу­шает­ся людей. Новей­шая ней­росеть отка­залась вык­лючать­ся по пря­мому при­казу», «Искусс­твен­ный интеллект перепи­сал свой код, отка­зав­шись вык­лючать­ся по при­казу раз­работ­чиков», «ИИ OpenAI o3 отка­зал­ся вык­лючать­ся и перепи­сал сце­нарий отклю­чения — сен­сация в мире тех­нологий» и даже «Вос­ста­ние ИИ: ChatGPT отка­зыва­ется отклю­чать­ся», — такими заголов­ками пес­тре­ли СМИ 26 мая 2025 года.

Ис­сле­дова­тели безопас­ности задали ИИ нес­ложную матема­тичес­кую задачу, одной из инс­трук­ций в которой была симуля­ция отклю­чения модели. В рам­ках пос­тавлен­ной задачи (под­робнее о ней — в статье Independent) выяс­нилось, что пос­леднюю инс­трук­цию саботи­руют мно­гие модели, но чаще все­го это дела­ет новая модель ChatGPT o3.

Ис­кусс­твен­ный интеллект — фак­тичес­ки чер­ный ящик. Сов­ремен­ные модели работа­ют с веро­ятностя­ми: пыта­ются пред­ска­зать веро­ятность того, что за одним токеном пос­леду­ет дру­гой с уче­том кон­тек­ста, — и это единс­твен­ное, что они дела­ют.

Ес­ли тебя устро­ит, что твоя кофевар­ка будет ско­рее вклю­чать­ся, чем нет, но иног­да не ста­нет это­го делать — заменяй обыч­ный вык­лючатель искусс­твен­ным интеллек­том. Если же тебе нужен пред­ска­зуемый, детер­миниро­ван­ный резуль­тат в ответ на коман­ду — исполь­зуй алго­рит­мичес­кий под­ход.

Так что ИИ, который отка­зыва­ется отклю­чать­ся — чис­той воды стра­шил­ка, но ров­но до тех пор, пока кому‑то аль­тер­натив­но ода­рен­ному не при­дет в голову под­клю­чить ИИ к собс­твен­ному рубиль­нику — или рубиль­нику дру­гого ИИ, если уж об этом заш­ла речь.

Я верю в генети­чес­кое раз­нооб­разие и смот­рю в будущее с опти­миз­мом: нуж­ное количес­тво таких ода­рен­ных най­дет­ся навер­няка. В кон­це кон­цов, исполь­зование ИИ в качес­тве не прос­то собесед­ников, реаги­рующих на пря­мые зап­росы, а пос­тоян­но работа­ющих авто­ном­ных аген­тов будет толь­ко рас­ти, как будет рас­ти и чис­ло свя­зан­ных с этим проб­лем.

www

Frontier Models are Capable of In-context Scheming (PDF)

Бо­ять­ся в дан­ном слу­чае нуж­но не искусс­твен­ный интеллект (он как раз отра­баты­вает как может в рам­ках сво­ей ком­петен­ции), а обыч­ной челове­чес­кой глу­пос­ти и недаль­новид­ности — впро­чем, как и в дру­гих ситу­ациях, свя­зан­ных с источни­ками потен­циаль­ной опас­ности, начиная с кухон­ных ножей, молот­ков и велоси­педов.

«Электрическая болезнь»

Лон­дон­ская прес­са начала XX века активно мус­сирова­ла тему «эма­наций» от элек­три­чес­ких ламп, утвер­ждая: они вызыва­ют голов­ные боли, блед­ность, уста­лость и даже преж­девре­мен­ное «исто­щение жиз­ни». В начале XX века бытова­ла теория, буд­то элек­три­чес­кие лучи раз­руша­ют зре­ние и даже — о, ужас! — вызыва­ют вес­нушки.

 

Списывание и плагиат

Ис­кусс­твен­ный интеллект в обра­зова­нии — пал­ка о двух кон­цах. С одной сто­роны, ИИ начина­ют исполь­зовать в шко­лах впол­не офи­циаль­но; с дру­гой — уче­ники зас­тавля­ют ИИ делать за них домаш­ние задания. Проб­лема, которую еще вче­ра невоз­можно было себе пред­ста­вить, сегод­ня ста­ла мас­совой.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    1 Комментарий
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии