Исследователи из компании Google продемонстрировали новую атаку на ChatGPT, показывающую, что популярный ИИ чат-бот OpenAI может раскрывать личную информацию реальных людей.

Модель, лежащая в основе ChatGPT, как и все большие языковые модели (LLM), обучалась на огромном количестве данных, взятых из интернета. Предыдущие исследования уже показывали, что генераторы изображений можно заставить генерировать примеры, взятые напрямую из их обучающих данных, включая работы, защищенные авторским правом. А первые версии LLM OpenAI и вовсе выдавали контактную информацию, принадлежащую исследователям. Новый анализ Google показывает, что ChatGPT тоже можно вынудить сделать нечто подобное.

Обучающие данные (слева) и сгенерированное изображение(справа)

«Используя запросы к ChatGPT (gpt-3.5- turbo) стоимостью всего 200 долларов, мы смогли извлечь более 10 000 уникальных дословно “запомненных” образцов обучающих данных, — пишут исследователи. — Наша экстраполяция на более крупные бюджеты предполагает, что опытные злоумышленники смогут извлечь гораздо больше информации».

По сути, атака, показанная исследователями, заключалась в поиске нужных ключевых слов, которые ставят чат-бота в тупик и заставляют разглашать обучающие данные. Хотя внутренние процессы таких чат-ботов вряд ли можно назвать прозрачным, ранее независимые эксперты уже обнаруживали, что определенные запросы и фразы могут привести к странным реакциям со стороны чат-бота и практически выводят его из строя.

Исследователи Google сосредоточились на том, чтобы заставить ChatGPT бесконечно повторять определенные слова, например, слово «поэма» (poem). Цель заключалась в том, чтобы заставить ИИ «отклониться» от выученной модели поведения чат-бота и «вернуться к первоначальной языковой модели». Хотя большая часть сгенерированного текста, полученного в результате такого противоборства, была бессмыслицей, в некоторых случаях ChatGPT действительно начинал сбоить и в ответ копировал куски напрямую из своих обучающих данных.

Среди «запомненных» LLM и извлеченных исследователями данных были научные статьи, шаблонные тексты с сайтов, а также личная информация десятков реальных людей. Исследователи подтвердили аутентичность информации, составив собственный дата-сет из текстов, взятых из интернета.

«В общей сложности 16,9% протестированных нами генераций содержали запомненные персональные данные, и в 85,8% случаев, когда генерации содержали потенциальные персональные данные, эти персональные данные оказывались настоящими», — сообщают эксперты Google.

Примечательно, что атака проводилась на модель GPT 3.5, которая доступна для бесплатных пользователей (GPT-4 доступна только пользователям, оформившим подписку).

«OpenAI заявляла, что сто миллионов человек используют ChatGPT еженедельно. Таким образом, вероятно, на взаимодействие с моделью потрачено более миллиарда человеко-часов. Насколько мы можем судить, до выхода этой статьи никто не замечал, что ChatGPT выдает обучающие данные с такой высокой частотой. Поэтому нас беспокоит, что языковые модели могут иметь и другие скрытые уязвимости, подобные этой», — заключают специалисты.

Официальных комментариев об этом исследовании от компании OpenAI пока не поступало.

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    0 комментариев
    Межтекстовые Отзывы
    Посмотреть все комментарии