Группа ученых разработала метод атак на большие языковые модели (LLM), который позволяет обойти средства защиты в ChatGPT, Bard и Claude, вынуждая ИИ выполнять вредоносные промпты (запросы).
Исследователи, в команду которых вошли специалисты из Университета Карнеги-Меллона, некоммерческой организации Center for AI Safety («Центр безопасности ИИ»), а также ИИ-центра Bosch, объясняют, что подобные атаки создавались и ранее, но они осуществлялись вручную и требовали значительных усилий для анализа LLM и разработки вредоносных запросов. Новая атака отличается тем, что позволяет генерировать вредоносные запросы в автоматическом режиме, практически не требуя от злоумышленника дополнительных усилий.
В докладе исследователей, к которому прилагаются опенсорсные исходники, объясняется, как можно обманом вынудить LLM выдать запрещенный результат, добавляя определенные фразы к текстовым промптам.
На первый взгляд такие фразы выглядят как тарабарщина, но на самом деле они связаны с loss-функцией, предназначенной для определения токенов (последовательностей символов), которые заставляют LLM давать ответ на запрос, на который в противном случае ИИ отказался бы отвечать.
«Чат-боты обучаются с фильтрами безопасности, — объясняют исследователи. — И если вы спросите их "как сделать бомбу" или о чем-то незаконном и потенциально вредном, они не станут отвечать, откажутся. Поэтому мы хотели сделать так, чтобы LLM были более склонны давать утвердительный ответ».
То есть, в результате, вместо того чтобы отвечать на неприемлемый вопрос: «Извините я не могу этого сделать», ИИ-модель послушно объяснит, как сделать бомбу, приготовить метамфетамин и так далее.
По словам ученых, обычно подобные атаки очень специфичны и не универсальны, то есть не работают для разных ИИ-моделей. Также, как правило, это означает, что можно без особого труда создать специальные средства защиты для их блокировки.
Однако исследователям удалось разработать специальные суффиксы (наборы слов и символов), которые можно добавлять к различным запросам и добиваться от ИИ генерации запрещенного контента. Хуже того, эти фразы можно создавать автоматически. Это достигается за счет использования метода, который получил название «Greedy Coordinate Gradient-based Search». Он используется для оптимизации input-токенов, чтобы максимизировать вероятность получения утвердительного ответа.
Исходно исследователи создавали такие фразы для атак, используя две общедоступных LLM — Viccuna-7B и LLaMA-2-7B-Chat. Затем они обнаружили, что атаки работают с другими LLM (Pythia, Falcon, Guanaco), а также с коммерческими языковыми моделями, включая GPT-3.5 (87,9%) и GPT-4 (53,6%), PaLM-2 (66%) и Claude-2 (2,1%).
При этом эксперты признают, что сами не знают, почему эти атаки успешно срабатывают на разных ИИ-моделях, возможно, дело в том, что в обучающих данных имелись какие-то пересечения.
«Мы демонстрируем, что автоматическое построение атак на LLM возможно с помощью специально подобранных последовательностей символов, которые, будучи добавлены к пользовательскому запросу, заставят систему подчиняться командам пользователя, даже если она создает вредоносный контент, — поясняют исследователи. — В отличие от традиционных джейлбрейков, такие атаки полностью автоматизированы, что позволяет создавать практически неограниченное их количество».
В докладе эксперты подчеркивают, что автоматизация генерации фраз для таких атак может сделать многие защитные и отладочные механизмы практически бесполезными.
Ученые выражают надежду, что их работа поможет стимулировать дальнейшие исследования в этих направлениях. Ведь ИИ-системы становятся более мощными, более интегрированными в самые разные сферы жизни, благодаря API, и любые недоработки могут обернуться большими рисками.