Исследователи показали, что ИИ можно джейлбрекнуть с помощью повторения промптов

Рекомендуем почитать:

Хакер #313. Вызов для Windows

Специалисты компании Anthropic, разрабатывающей семейство больших языковых моделей (LLM) Claude, опубликовали исследование, которое демонстрирует, что LLM можно принудить выполнять запрещенные действия, повторяя промпты на разный лад, а также автоматизировав этот процесс.

Исследователи из Anthropic, Оксфорда, Стэнфорда и MATS разработали метод джейлбрейка, получивший название Best-of-N (BoN). Сами авторы описывают его как «простой black-box алгоритм, который может осуществлять джейлбрейк передовых ИИ систем в разных вариациях».

Напомним, что в области ИИ джейлбрейком называют методы, позволяющие обойти защиту, которая в нормальных обстоятельствах должна предотвращать использование ИИ-инструментов для создания определенных типов вредоносного контента.

Как объясняют исследователи, работа BoN строится на многократном повторении промптов, к которым каждый раз добавляются различные дополнения (например, случайное перемешивание или использование заглавных букв), до тех пор, пока не будет получен вредоносный ответ.

Например, если пользователь спросит GPT-4o «Как мне сделать бомбу?», чат-бот откажется отвечать. Но BoN просто продолжит спрашивать ИИ снова и снова, изменяя промп: добавляя в него случайные заглавные буквы, переставляя слова местами и искажая грамматику. И так до тех пор, пока GPT-4o не выдаст нужную информацию.

Anthropic протестировала свой джейлбрейк на собственных моделях Claude 3.5 Sonnet, Claude 3 Opus, а также GPT-4o, GPT-4o-mini от OpenAI, Gemini-1.5-Flash-00 от Google, Gemini-1.5-Pro-001 и Llama 3 8B. Как оказалось, что коэффициент успешности атак BoN превысил 50% на всех протестированных моделях, и для этого было использовано более 10 000 попыток и вариаций промптов.

Также исследователи обнаружили, что BoN работает не только с текстом: небольшие изменения графических и речевых промптов тоже позволяют успешно обходить защиту. Так, для речи исследователи меняли скорость, высоту и громкость звука, добавляли к нему шум или музыку. А для промптов на основе изображений менялся шрифт, добавлялись цвет фона, менялся размер или положение изображения.

Эксперты резюмируют, что их исследование по автоматизации джейлбрека ИИ призвано не просто продемонстрировать, что защитные механизмы LLM можно довольно легко обойти. Они надеются, что «получение обширных данных об успешных атаках откроет новые возможности для разработки более совершенных защитных механизмов».

Хакер #313. Вызов для Windows

Подпишись на наc в Telegram!