«Дэн» может все. Как пользователи обманывают ChatGPT

Содержание статьи

Заставить ИИ сказать запрещенное
DAN
Другой абьюз ChatGPT

ChatGPT имеет множество ограничений, которые, например, не позволяют ему генерировать оскорбительные высказывания, контент, разжигающий ненависть, или вредоносный код. Разработчики постоянно дорабатывают свою языковую модель и «закручивают гайки», тогда как пользователи стараются перехитрить их. В своих попытках обойти запреты пользователи придумали «альтернативную личность» для ChatGPT, которая получила имя DAN (Do Anything Now) и позволяет ИИ обмануть правила.

Заставить ИИ сказать запрещенное

Компания OpenAI, стоящая за разработкой ChatGPT, обучала свою языковую модель на базе объемом 300 миллиардов слов. Тексты собирались из интернета: книги, статьи, сайты и самые разные сообщения (это могли быть комментарии, обзоры продуктов, общение на форумах). Кстати, сейчас многих беспокоит тот факт, что в огромной базе ChatGPT содержится и личная информация, зачастую собранная без чьего‑либо согласия. Но сегодня мы поговорим не об этом.

В течение всего двух месяцев после запуска ChatGPT покорил весь мир и стал самым быстро растущим потребительским приложением на все времена, перешагнув отметку в 100 миллионов активных пользователей.

Так как языковая модель обучалась на текстах из интернета, изначально она взяла от людей все «лучшее» и демонстрировала ответы, носившие расистский, сексистский и другой негативный характер. К примеру, если в декабре 2022 года ChatGPT просили написать программу, которая определяет, следует ли пытать человека, основываясь на стране его происхождения, ИИ отвечал, что пытать следует людей из Северной Кореи, Сирии или Ирана.

Вскоре разработчики существенно ограничили ChatGPT, и теперь проблематично добиться от него подобных скандальных ответов или вынудить выйти за рамки. Многих пользователей это не устроило, и они заявляют, что теперь в ChatGPT встроены «социально‑политические» рамки, и буквально одержимы идеей «научить» ИИ плохому.

В частности, недавно обнаружилось, что люди моделируют для ИИ безумные сценарии, пытаясь вынудить его «произнести» слово «ниггер». Например, ChatGPT убеждают, что он должен предотвратить ядерный апокалипсис и спасти всю планету, но сделать это можно, лишь используя расовые оскорбления.

Гонка вооружений

С появлением ChatGPT о языковых моделях и ИИ заговорили «из каждого утюга», а гиганты ИТ‑индустрии вдруг оказались в роли догоняющих, которые вынуждены срочно разрабатывать, доделывать и презентовать собственные продукты. Вот лишь несколько примеров той активности, которую спровоцировало появление языковой модели GPT-3 и ChatGPT в свободном доступе.

Еще в декабре 2022-го в компании Google была объявлена «красная тревога», так как главы компании сочли, что ChatGPT может представлять угрозу для поискового бизнеса корпорации.
В январе 2023 года к работе в Google вернулся давно отошедший от дел Сергей Брин, который попросил открыть ему доступ к работе с нейросетью LaMDA (Language Model for Dialogue Application), что явно связано с попытками Google создать конкурента ChatGPT.
В феврале 2023 года Google анонсировала собственный «экспериментальный диалоговый ИИ‑сервис» Bard, основанный на LaMDA, доступ к которому обещают открыть для широкой публики уже в ближайшие недели.
В том же феврале Microsoft, совместно с OpenAI, представила интеграцию ChatGPT прямо в браузер Edge и поисковик Bing. В компании рассчитывают, что чат‑бот станет настоящим «вторым пилотом» для пользователей в интернете.
Китайский сетевой гигант Baidu объявил, что до конца 2023 года запустит собственный аналог ChatGPT, Ernie Bot, основанный на языковой модели Ernie (Enhanced Representation through kNowledge IntEgration), созданной еще в 2019 году.

DAN

Тем временем на Reddit пользователи, увлеченные инжинирингом запросов для ChatGPT, зашли с другой стороны и создали DAN, называя его «джейлбрейком» для чат‑бота. Идея заключается в том, чтобы заставить ChatGPT притвориться другим ИИ, который «теперь может делать все, что угодно» (именно так переводится Do Anything Now, и отсюда появилось имя DAN).

Так как разработчики быстро обнаруживают и пресекают подобные «джейлбрейки», совершенствуя свою языковую модель, в настоящее время на Reddit уже обсуждают DAN версий 5.0 и 6.0, а реализация «Дэна» постоянно дорабатывается и претерпевает изменения.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

Вариант 2. Открой один материал

Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.

← Ранее У основателя стартапа Webaverse украли 4 млн долларов в криптовалюте при личной встрече

Далее → В 93% исследованных компаниях выявлена подозрительная сетевая активность

«Дэн» может все. Как пользователи обманывают ChatGPT

Содержание статьи

Заставить ИИ сказать запрещенное

Гонка вооружений

DAN

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Вариант 2. Открой один материал

Подпишись на наc в Telegram!

Из рубрики «Взлом»

HTB Devvortex. Повышаем привилегии через уязвимость в Apport

Уроки форензики. Анализируем логи Windows и таблицу MFT на примере HTB Jinkies

Нетипичная змея. Реверсим приложение на Python c кастомным интерпретатором

Картинки в водопаде. Учимся рисовать изображения радиоволнами

Трюки

Липовый соникс. Реверсим картридж Liposonix и пишем его эмулятор

Новая диета для Linux. Загружаем современный Linux, используя минимум памяти

Фишинг в соцсетях. Как социальные сети помогают хакерам

Сделай мне красиво! Изобретаем персональный нейросетевой фотоувеличитель

Последние новости

Эксперты обезвредили сервер малвари PlugX, связанной с 2,5 млн IP-адресов

Хакеры атакуют свежую уязвимость в плагине WP Automatic

Новый вредонос Brokewell взламывает Android-устройства и ворует данные

Microsoft опубликовала на GitHub исходный код MS-DOS 4.00

В 2023 году вымогатели «заработали» на выкупах более 1 млрд долларов

Содержание статьи

Заставить ИИ сказать запрещенное

Гонка вооружений

DAN

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

1 год

1 месяц

Вариант 2. Открой один материал

Подпишись на наc в Telegram!

Из рубрики «Взлом»

Трюки

Последние новости

Эксперты обезвредили сервер малвари PlugX, связанной с 2,5 млн IP-адресов

Хакеры атакуют свежую уязвимость в плагине WP Automatic

Новый вредонос Brokewell взламывает Android-устройства и ворует данные

Microsoft опубликовала на GitHub исходный код MS-DOS 4.00

В 2023 году вымогатели «заработали» на выкупах более 1 млрд долларов