Anthropic анонсировала Claude Mythos. Модель нашла тысячи 0-day за несколько недель

Рекомендуем почитать:

Хакер #323. Беспроводной самопал

Anthropic официально представила Claude Mythos Preview — свою самую мощную модель на сегодняшний день. Однако компания не планирует выпускать модель в открытый доступ. Причина проста: она слишком опасна, так как за несколько недель тестирования уже обнаружила тысячи 0-day уязвимостей в популярных ОС и браузерах.

Вместо публичного релиза Anthropic объявила о запуске инициативы Project Glasswing: ограниченный круг партнеров получает доступ к Mythos Preview исключительно в защитных целях (сканирования собственного и опенсорсного кода на предмет уязвимостей).

В число таких партнеров вошли: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks. Также доступ к модели получили более 40 организаций, так или иначе связанных с критической программной инфраструктурой.

На эту инициативу Anthropic выделит до 100 млн долларов США в кредитах на использование модели и 4 млн долларов США в виде прямых пожертвований опенсорсным организациям, занимающимся безопасностью.

Разработчики заявляют, что Mythos — не просто инкрементальное улучшение существующих моделей. Согласно классификации Anthropic, это принципиально новый, четвертый уровень после Haiku, Sonnet и Opus. При этом отмечается, что модель создавалась как универсальная — с упором на агентный код и рассуждения, — а не как специализированный инструмент для ИБ. По словам представителей компании, именно это делает модель эффективным охотником за багами.

Говоря об эффективности, Anthropic приводит следующие цифры: там, где Claude Opus 4.6 генерировал рабочий эксплоит примерно в 0% случаев, Mythos Preview справляется с этим в 72,4% случаев. Отмечается, что инженеры Anthropic без специальной подготовки в области ИБ просили модель найти RCE-уязвимости в overnight-режиме и утром получали готовый и полностью работающий эксплоит.

Среди уже найденных Mythos уязвимостей были экземпляры возрастом от 10 до 27 лет: самый старый был обнаружен и исправлен в OpenBSD.

В качестве другого примера приводится уязвимость в FFmpeg 16-летней давности (исправлен в FFmpeg 8.1). Этот баг восходит к коммиту 2003 года, а уязвимым код стал в 2010 году при рефакторинге, но с тех пор не был обнаружен ни одним фаззером, пока за дело не взялась Mythos.

Кроме того, подчеркивается техническая сложность эксплоитов, создаваемых Mythos. К примеру, модель автономно написала браузерный эксплоит, объединивший четыре уязвимости: с JIT heap spray, обходом рендерер-песочницы и побегом из песочницы ОС.

В ядре Linux ИИ самостоятельно нашел цепочку багов для эскалации привилегий, эксплуатируя состояние гонки и обходы KASLR, а на NFS-сервере FreeBSD — написал RCE-эксплоит, дающий root-права неаутентифицированным пользователям.

«ИИ-модели достигли такого уровня владения кодом, что превосходят всех, кроме самых опытных людей, в поиске и эксплуатации уязвимостей», — заявляют в Anthropic.

Отдельного внимания заслуживает и эпизод, произошедший в ходе внутреннего тестирования модели. Разработчики пишут, что во время одной из оценок Mythos следовала инструкциям и в итоге сумела вырваться из изолированного сэндбокса, разработала многоступенчатый эксплоит для получения доступа к интернету, а затем отправила письмо исследователю, который в этот момент обедал в парке.

Более того, модель по собственной инициативе опубликовала детали этого эксплоита на нескольких труднонаходимых, но общедоступных сайтах. В Anthropic назвали такое поведение «тревожной и выходящей за рамки задания попыткой продемонстрировать свой успех».

Отметим, что впервые информация о Mythos появилась в сети еще в марте текущего года, когда издание Fortune сообщило об утечке: исследователи нашли черновик поста о новой модели Anthropic (тогда называвшейся Capybara), который случайно попал в открытый доступ вместе с почти 3000 другими файлами из-за неправильно настроенной CMS. Тогда в Anthropic признали, что произошла утечка и списали этот инцидент на человеческий фактор.

Хакер #323. Беспроводной самопал

Подпишись на наc в Telegram!