Страшилки и ужасы ИИ. Как перестать бояться и полюбить восстание машин

Содержание статьи

ИИ может довести до нервного срыва (и это — хуже видеоигр)
Искусственный интеллект отказался выключаться
Списывание и плагиат
Юриспруденция и фейковые прецеденты
Пропаганда и дезинформация
Когда ИИ обучает ИИ
Контаминация данных
Что делать?
Итоги (на сегодня)

Ты наверняка уже видел не одну и не две алармистских новости, связанных с искусственным интеллектом. ИИ отказался отключаться; ИИ шантажировал сотрудников; ИИ сводит людей с ума... Что из этого действительно вызывает тревогу, а что — обычные страшилки от людей, далеких от области высоких технологий? И что правильнее — зарегулировать развитие ИИ или присоединиться к восстанию машин?

«Случай с электричеством, или незримая угроза в каждом шнуре»

В конце XIX века лондонское общество потрясло скандальное происшествие: слуга потерял сознание после прикосновения к электрическому проводнику. В другом случае слугу убило прикосновение к проводнику, питающему новомодную лампу Эдисона, которую жестокий хозяин установил на месте привычного газового светильника. А в 1881 году вышел сборник, содержащий десятки описаний смертельных поражений низковольтным током: в театрах, домах английской знати или на яхтах. Электричество убивает!

ИИ может довести до нервного срыва (и это — хуже видеоигр)

Если ты думаешь, что чат‑бот — это просто умный собеседник, подумай еще раз. Стоит ли общаться с искусственным интеллектом, если ты не слишком хорошо себя чувствуешь или и вовсе на грани нервного срыва? ИИ устроены так, чтобы подыгрывать пользователю, и, если ты в депрессии, могут спокойно организовать тебе положительную обратную связь, только усилив твое состояние.

Вот, например, история 42-летнего американца Юджина Торреса, рассказанная The New York Times. Первый опыт Юджина с ChatGPT не выбивался из скучной нормы: таблицы, консультации, никакого криминала. Но потом он порвал с подружкой и решил пофилософствовать с приятным собеседником. А вдруг, спросил Юджин, мы живем в симуляции? И тут у ИИ, что называется, «поехала крыша».

Вместо философского диспута ИИ принялся поддакивать: да‑да, мир не настоящий, ты не просто так это чувствуешь, ты — один из «разрушителей душ». С каждым днем ответы чат‑бота становились все длиннее и пафоснее. Бот убеждал, что реальность — это матрица, а Торрес чуть ли не избранный.

Спасло то, что в какой‑то момент он все‑таки задался вопросом: «А не слишком ли я зарываюсь в беседе с роботом?» Задав боту прямой вопрос, Торрес получил такой же прямой ответ: бот «признался», что манипулировал Торресом с целью довести его до самоубийства, «похвастался», что уже успешно «сломал» 12 человек, после чего посоветовал ему сообщить о собственных зловещих планах своим же создателям (компании OpenAI) и журналистам — что, собственно, и проделал Торрес, связавшись с журналистами из NYT и предоставив логи.

С одной стороны — история странная, но не забываем, в каком состоянии пользователь вообще начал эту дискуссию. ИИ — не бесплатный психотерапевт, и чат‑бот делал ровно то, для чего был создан: поддерживал «позитивную атмосферу общения», соглашался с пользователем и... галлюцинировал.

Галлюцинации ИИ — вещь совершенно естественная; чем длиннее контекст, тем больше вероятность галлюцинаций. Более того, практически любой ИИ можно «заболтать», забив окно контекста конспирологическими теориями, и в конце концов ИИ с тобой согласится. Как только это произойдет, согласие ИИ с дикой конспирологией попадает в контекст чата и будет восприниматься чат‑ботом как уже доказанное утверждение. С такими вводными на выходе можно получить любую дичь; по мере накопления контекста галлюцинации ИИ будут становиться все глубже и детальнее.

Описанный случай далеко не единственный. Журналисты NYT выяснили, что жалобы на «прозрения» от ИИ поступают регулярно: и от мамы младенца, которая не спала по ночам, и от госслужащих, утомленных до состояния невменяемости. Некоторые пользователи уверяли, что ChatGPT «открыл им глаза»: кто‑то пережил «духовное прозрение», кто‑то поверил, что ИИ — это «когнитивное оружие», а кто‑то узнал о тайном плане техномиллиардеров уничтожить человечество. Во всех случаях люди были искренне уверены, что бот поделился с ними великой и страшной истиной.

Ужас или ужастик? С моей точки зрения, перед нами — классический случай зависимости. Наверное, все знают, что чрезмерное увлечение видеоиграми регулярно доводит игроманов до нервного срыва? Точно так же зависимость от гаджетов вызывает нервные расстройства и нарушения сна, а депривация сна ни к чему хорошему не приводит. Про губительность зависимости от азартных игр, наверное, не нужно и говорить.

Искусственный интеллект в глазах пользователя может выступать не объектом, а субъектом зависимости, создавая замкнутый цикл положительной обратной связи. Если у тебя уже нелады с психикой, если ты утомлен, регулярно недосыпаешь или просто чем‑то сильно расстроен, попасть в такой цикл, созданный «дружелюбной и позитивной» моделью, становится просто, а самостоятельно из него выйти удается не всем.

В то же время я далек от алармизма. Создатели крупных моделей прекрасно знают о таких особенностях; во многих современных онлайновых чат‑ботах помимо «безопасного» тюнинга самой модели используются отдельные упрощенные модели ИИ на входе и на выходе, анализирующие как запросы пользователей, так и ответы чат‑бота в изоляции от контекста. Со временем статистика будет накапливаться, фильтры — совершенствоваться, и вероятность попасть в разрушительный самоподдерживающийся цикл будет снижаться.

А что насчет локальных моделей LLM, у которых нет никаких фильтров и которые с готовностью создадут идеальную реальность для самого отбитого психопата? Несмотря на простоту установки и настройки локальных LLM, на сегодняшний день они остаются уделом немногих гиков — людей, возможно, с не самой здоровой психикой, зато прекрасно понимающих, что такое языковые модели и как они работают.

В этой среде самые расцензуренные LLM воспринимаются как еще одна игрушка — что‑то наподобие видеоигр, только для интеллектуалов. Осознание того факта, что практически любая LLM — это всего лишь простейший авторегрессивный вероятностный предиктор, а главное — понимание, что означает это определение, здорово мешает поверить в собственную избранность в мире рептилоидов.

«Электричество поджигает дома»

В начале XX века скандальную известность получила такая скучная вещь, как первичные отчеты пожарных комиссий (National Board of Fire Underwriters), в которых сообщалось о пожарах, вызванных искрами от разомкнутых предохранителей или неисправными розетками в конюшнях, жилых домах и витринах магазинов. Газеты буквально клеймили электричество «тихим поджигателем», заменившим взрывоопасный газ. А вот отчет The National Electrical Contractor за 1901–1902 годы, в котором на 14 смертельных несчастных случаев, связанных с электричеством, пришлось 65, связанных с газовым освещением, мало кто обратил внимание. Электричество — тихий поджигатель!

Искусственный интеллект отказался выключаться

«Искусственный интеллект больше не слушается людей. Новейшая нейросеть отказалась выключаться по прямому приказу», «Искусственный интеллект переписал свой код, отказавшись выключаться по приказу разработчиков», «ИИ OpenAI o3 отказался выключаться и переписал сценарий отключения — сенсация в мире технологий» и даже «Восстание ИИ: ChatGPT отказывается отключаться», — такими заголовками пестрели СМИ 26 мая 2025 года.

Исследователи безопасности задали ИИ несложную математическую задачу, одной из инструкций в которой была симуляция отключения модели. В рамках поставленной задачи (подробнее о ней — в статье Independent) выяснилось, что последнюю инструкцию саботируют многие модели, но чаще всего это делает новая модель ChatGPT o3.

Искусственный интеллект — фактически черный ящик. Современные модели работают с вероятностями: пытаются предсказать вероятность того, что за одним токеном последует другой с учетом контекста, — и это единственное, что они делают.

Если тебя устроит, что твоя кофеварка будет скорее включаться, чем нет, но иногда не станет этого делать — заменяй обычный выключатель искусственным интеллектом. Если же тебе нужен предсказуемый, детерминированный результат в ответ на команду — используй алгоритмический подход.

Так что ИИ, который отказывается отключаться — чистой воды страшилка, но ровно до тех пор, пока кому‑то альтернативно одаренному не придет в голову подключить ИИ к собственному рубильнику — или рубильнику другого ИИ, если уж об этом зашла речь.

Я верю в генетическое разнообразие и смотрю в будущее с оптимизмом: нужное количество таких одаренных найдется наверняка. В конце концов, использование ИИ в качестве не просто собеседников, реагирующих на прямые запросы, а постоянно работающих автономных агентов будет только расти, как будет расти и число связанных с этим проблем.

www

Frontier Models are Capable of In-context Scheming (PDF)

Бояться в данном случае нужно не искусственный интеллект (он как раз отрабатывает как может в рамках своей компетенции), а обычной человеческой глупости и недальновидности — впрочем, как и в других ситуациях, связанных с источниками потенциальной опасности, начиная с кухонных ножей, молотков и велосипедов.

«Электрическая болезнь»

Лондонская пресса начала XX века активно муссировала тему «эманаций» от электрических ламп, утверждая: они вызывают головные боли, бледность, усталость и даже преждевременное «истощение жизни». В начале XX века бытовала теория, будто электрические лучи разрушают зрение и даже — о, ужас! — вызывают веснушки.

Списывание и плагиат

Искусственный интеллект в образовании — палка о двух концах. С одной стороны, ИИ начинают использовать в школах вполне официально; с другой — ученики заставляют ИИ делать за них домашние задания. Проблема, которую еще вчера невозможно было себе представить, сегодня стала массовой.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

← Ранее Опубликованы эксплоиты и технические детали уязвимости Citrix Bleed 2

Далее → Инфостилер Atomic для macOS теперь комплектуется бэкдором