Компания «Яндекс» запустила новое направление своей bug bounty программы «Охоты за ошибками», связанное с генеративными нейросетями. Компания готова выплатить до 1 000 000 рублей исследователям, которым удастся отыскать технические уязвимости в семействах моделей YandexGPT, YandexART и сопутствующей инфраструктуре.
Багхантерам предстоит искать технические ошибки, которые могут повлиять на результаты работы и процесс обучения нейросетевых моделей. Например, привести модель к сбою или изменить ее поведение таким образом, чтобы это повлияло на работу других сервисов компании.
Размер выплаты будет зависеть от серьезности ошибки и простоты ее применения. К критичным относятся уязвимости, которые позволят раскрыть данные о внутренней конфигурации модели, ее служебный промпт с техническими данными или другую чувствительную информацию. Максимальное вознаграждение за такие ошибки — 1 млн рублей.
При этом к рассмотрению принимаются только отчеты о технических уязвимостях. К таковым, например, не относятся сообщения о неточных ответах Алисы или некорректных изображениях в Шедевруме.
Отмечается, что YandexGPT и YandexART уже нашли применение более чем в 20 сервисах и продуктах для пользователей и бизнеса — от Алисы и Поиска с Нейро до Директа и решений Yandex Cloud, в том числе доступных сторонним разработчикам через API.
В компании подчеркивают, что все технологии «Яндекса», включая генеративные модели, создаются и развиваются с учетом принципов безопасной разработки на каждом этапе — от проектирования до внедрения.
Для этого команда безопасности еще на стадии проектирования изучает будущую архитектуру сервиса, проверяет ее на возможные уязвимости и соответствие стандартам. Также «Яндекс» изучает возможные способы атак на нейросети и разрабатывает защиту от потенциальных угроз. К примеру, Антиробот защищает ИИ-сервисы от DDoS-атак, а центр мониторинга выявляет угрозы и анализирует подозрительную активность в инфраструктуре. Кроме того, компания регулярно проводит внутренние аудиты для проверки защищенности сервисов.