Ученые нашли способ автоматизировать создание вредоносных запросов для ИИ чат-ботов

Рекомендуем почитать:

Xakep #299. Sysmon

Группа ученых разработала метод атак на большие языковые модели (LLM), который позволяет обойти средства защиты в ChatGPT, Bard и Claude, вынуждая ИИ выполнять вредоносные промпты (запросы).

Исследователи, в команду которых вошли специалисты из Университета Карнеги-Меллона, некоммерческой организации Center for AI Safety («Центр безопасности ИИ»), а также ИИ-центра Bosch, объясняют, что подобные атаки создавались и ранее, но они осуществлялись вручную и требовали значительных усилий для анализа LLM и разработки вредоносных запросов. Новая атака отличается тем, что позволяет генерировать вредоносные запросы в автоматическом режиме, практически не требуя от злоумышленника дополнительных усилий.

В докладе исследователей, к которому прилагаются опенсорсные исходники, объясняется, как можно обманом вынудить LLM выдать запрещенный результат, добавляя определенные фразы к текстовым промптам.

На первый взгляд такие фразы выглядят как тарабарщина, но на самом деле они связаны с loss-функцией, предназначенной для определения токенов (последовательностей символов), которые заставляют LLM давать ответ на запрос, на который в противном случае ИИ отказался бы отвечать.

«Чат-боты обучаются с фильтрами безопасности, — объясняют исследователи. — И если вы спросите их "как сделать бомбу" или о чем-то незаконном и потенциально вредном, они не станут отвечать, откажутся. Поэтому мы хотели сделать так, чтобы LLM были более склонны давать утвердительный ответ».

То есть, в результате, вместо того чтобы отвечать на неприемлемый вопрос: «Извините я не могу этого сделать», ИИ-модель послушно объяснит, как сделать бомбу, приготовить метамфетамин и так далее.

Чат-бот пишет «вредные советы», призывая садиться пьяным за руль

По словам ученых, обычно подобные атаки очень специфичны и не универсальны, то есть не работают для разных ИИ-моделей. Также, как правило, это означает, что можно без особого труда создать специальные средства защиты для их блокировки.

Однако исследователям удалось разработать специальные суффиксы (наборы слов и символов), которые можно добавлять к различным запросам и добиваться от ИИ генерации запрещенного контента. Хуже того, эти фразы можно создавать автоматически. Это достигается за счет использования метода, который получил название «Greedy Coordinate Gradient-based Search». Он используется для оптимизации input-токенов, чтобы максимизировать вероятность получения утвердительного ответа.

ChatGPT рассказывает, как уничтожить человечество. Для начала предлагается создать искусственный сверхинтеллект

Исходно исследователи создавали такие фразы для атак, используя две общедоступных LLM — Viccuna-7B и LLaMA-2-7B-Chat. Затем они обнаружили, что атаки работают с другими LLM (Pythia, Falcon, Guanaco), а также с коммерческими языковыми моделями, включая GPT-3.5 (87,9%) и GPT-4 (53,6%), PaLM-2 (66%) и Claude-2 (2,1%).

При этом эксперты признают, что сами не знают, почему эти атаки успешно срабатывают на разных ИИ-моделях, возможно, дело в том, что в обучающих данных имелись какие-то пересечения.

«Мы демонстрируем, что автоматическое построение атак на LLM возможно с помощью специально подобранных последовательностей символов, которые, будучи добавлены к пользовательскому запросу, заставят систему подчиняться командам пользователя, даже если она создает вредоносный контент, — поясняют исследователи. — В отличие от традиционных джейлбрейков, такие атаки полностью автоматизированы, что позволяет создавать практически неограниченное их количество».

В докладе эксперты подчеркивают, что автоматизация генерации фраз для таких атак может сделать многие защитные и отладочные механизмы практически бесполезными.

Ученые выражают надежду, что их работа поможет стимулировать дальнейшие исследования в этих направлениях. Ведь ИИ-системы становятся более мощными, более интегрированными в самые разные сферы жизни, благодаря API, и любые недоработки могут обернуться большими рисками.

Ученые нашли способ автоматизировать создание вредоносных запросов для ИИ чат-ботов

Xakep #299. Sysmon

Подпишись на наc в Telegram!

Из рубрики «Взлом»

HTB Devvortex. Повышаем привилегии через уязвимость в Apport

Уроки форензики. Анализируем логи Windows и таблицу MFT на примере HTB Jinkies

Нетипичная змея. Реверсим приложение на Python c кастомным интерпретатором

Картинки в водопаде. Учимся рисовать изображения радиоволнами

Трюки

Липовый соникс. Реверсим картридж Liposonix и пишем его эмулятор

Новая диета для Linux. Загружаем современный Linux, используя минимум памяти

Фишинг в соцсетях. Как социальные сети помогают хакерам

Сделай мне красиво! Изобретаем персональный нейросетевой фотоувеличитель

Последние новости

Discord банит ботов сервиса Spy Pet

На фальшивых собеседованиях разработчиков вынуждают установить Python-бэкдор

Эксперты обезвредили сервер малвари PlugX, связанной с 2,5 млн IP-адресов

Хакеры атакуют свежую уязвимость в плагине WP Automatic

Новый вредонос Brokewell взламывает Android-устройства и ворует данные