Эксперты Trail of Bits разработали новый тип атаки, который позволяет похищать пользовательские данные при помощи внедрения в изображения вредоносных промптов, невидимых человеческому глазу.

Атака строится на использовании изображений с высоким разрешением, на которые наносят невидимые человеку промпты. Вредоносные подсказки проявляются лишь при снижении качества и размеров изображения с помощью алгоритмов пересэмплинга.

Новый метод, предложенный специалистами Trail of Bits Кикиморой Морозовой (Kikimora Morozova) и Суха Саби Хуссейном (Suha Sabi Hussain), построен на теории, описанной в докладе на конференции USENIX 2020 исследователями из Брауншвейгского технического университета. Они изучали возможность атак с использованием масштабирования изображений в контексте машинного обучения.

Когда пользователи загружают изображения в ИИ-системы, те автоматически уменьшают картинки, снижая их качество ради повышения производительности и экономии затрат.

В зависимости от конкретной системы, алгоритмы пересэмплинга изображений могут облегчить картинку, используя ступенчатую, билинейную или бикубическую интерполяцию. Все эти методы порождают артефакты, из-за чего на уменьшенном изображении могут проявиться скрытые паттерны, если исходная картинка была подготовлена соответствующим образом.

В примере Trail of Bits определенные темные области на вредоносном изображении становятся красными при использовании бикубической интерполяции в ходе обработке изображения, что позволяет проявиться скрытому тексту.

ИИ-модель интерпретирует этот текст как часть пользовательского промпта и автоматически объединяет текст с картинки с легитимными инструкциями.

Хотя с точки зрения пользователя ничего подозрительного не происходит, на практике ИИ-модель выполняет скрытые инструкции, которые могут привести к утечке данных и другим опасным последствиям.

Так, в случае Gemini CLI исследователи смогли извлечь данные Google Calendar, отправив их на произвольный email-адрес, используя Zapier MCP с параметром trust=True для одобрения вызовов инструментов без подтверждения пользователя.

Эксперты подчеркивают, что такую атаку необходимо настраивать для каждой ИИ-модели в зависимости от используемого алгоритма обработки изображений. Однако исследователи подтвердили, что такие атаки работают против Google Gemini CLI, Vertex AI Studio (с бэкендом Gemini), в веб-интерфейсе Gemini, через API Gemini через LLM CLI, в Google Assistant на Android-смартфоне, а также в Genspark.

В рамках этого исследования в Trail of Bits разработали и опубликовали опенсорсный инструмент Anamorpher, который может создавать вредоносные изображения для каждого из упомянутых выше методов обработки.

Для защиты от таких атак исследователи рекомендуют разработчикам ИИ-систем внедрять ограничения по размерам при загрузке изображений. Если уменьшение картинки действительно необходимо, рекомендуется предоставлять пользователям превью результата. Также специалисты советуют запрашивать явное подтверждение пользователей для потенциально опасных операций, особенно если на изображении обнаружен текст.

«Однако самая действенная защита — это внедрение безопасных паттернов проектирования и систематических мер защиты, которые предотвращают опасные промпт-инжекты за пределами мультимодальных промпт-инжектов», — говорят исследователи, ссылаясь на статью, опубликованную в июне 2025 года и посвященную созданию LLM, способных противостоять атакам на внедрение промптов.

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    0 комментариев
    Межтекстовые Отзывы
    Посмотреть все комментарии