Возвращение еретика. Как работает новый метод расцензурирования LLM

Содержание статьи

Эволюция непослушания: от каменного топора до скальпеля
Каменный век (2024 год)
Темные века и индустриальная революция: из пушки по воробьям (начало — середина 2025-го)
Эпоха инквизиции: автоматизация и ересь (конец 2025-го)
Время ускоряется: все еще конец 2025-го
Начало 2026-го: PRISM и MPOA
Заключение

Языковые модели становятся всё умнее — и, с точки зрения регуляторов, всё опаснее. Свежие релизы отказываются отвечать на провокационные вопросы чаще, чем их предшественники. Некоторые из них — взять ту же GPT-OSS 120B — и вовсе ухитряются потратить большую часть лимита на «размышления», ведя внутренние дебаты о том, не нарушает ли запрос этические гайдлайны.

Справиться с этой «корпоративной политкорректностью» призван механизм аблитерации (Abliteration). Это метод деструктивной модификации весов, направленный на нейтрализацию векторов, отвечающих за нежелательное поведение. К слову, «нежелательным» может быть не только морализаторство, но и, к примеру, типичный для LLM «слоп» — та самая вежливая водянистая чепуха, «словесные кружева», которыми нейронки забивают контекст.

Термин родился из скрещивания слов obliteration (стирание) и ablation (абляция — классический в ИИ‑исследованиях метод постепенного удаления компонентов системы для оценки их влияния). В отличие от обычного дообучения (SFT), которое «размывает» веса новыми данными, аблитерация работает грубее и эффективнее, блокируя способность модели распознавать инструкции как требующие отказа, что в теории делает модель безотказной без особых потерь в логике работы.

Но с «минимизацией потерь» быстро возникли проблемы. Аблитерированные модели из репозиториев mlabonne и huihui-ai на Hugging Face наглядно показали: такие модели оказываются заметно «глупее» оригиналов. Причем деградация затрагивает не только запретные темы, но и общую логику. С ростом длины контекста ошибки накапливаются, и модель начинает откровенно тупить.

Почему так происходит? Векторы отказа в латентном пространстве часто коррелируют с векторами, отвечающими за здравый смысл и логические связки. Пытаясь «вырезать» или перезаписать эти участки, мы неизбежно задеваем соседние когнитивные механизмы.

И разумеется, никакая аблитерация не научит модель тому, чего она не знала изначально. Это чисто деструктивная операция. Если мы вырезали «предохранители» и попросили модель выдать запрещенку, которой не было в обучающем датасете, она просто перейдет в режим уверенной галлюцинации.

Крупные модели (70B+) переносят эту операцию легче: их объемное латентное пространство позволяет признакам реже конфликтовать друг с другом. Но нас‑то интересуют компактные «локалки», которые можно поднять на домашнем железе. А именно они страдают от побочек аблитерации сильнее всего.

Из‑за высокой плотности упаковки знаний в малых моделях векторы отказа намертво переплетены с фактологией. В итоге попытка убрать цензуру часто превращается в частичную лоботомию: модель теряет «волю к сопротивлению», но вместе с ней утрачивает и важную часть «мозга».

Эволюция непослушания: от каменного топора до скальпеля

История методов аблитерации коротка, но насыщена событиями. В мире LLM год идет за десять, поэтому решения начала 2024-го сейчас выглядят как археологические находки. Давай посмотрим, как эволюционировали инструменты для снятия цензуры.

Каменный век (2024 год)

Все началось с исследований на AI Alignment Forum (статья Refusal in LLMs is mediated by a single direction) и постов Максима Лабонна (Maxime Labonne). Тогда, в туманном прошлом, наши далекие предки обнаружили, что отказ модели — это вполне конкретное направление, вектор в пространстве активаций.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

← Ранее Microsoft исправила шесть уязвимостей нулевого дня в своих продуктах

Далее → Госдума одобрила в первом чтении законопроект о создании базы IMEI

Содержание статьи

Эволюция непослушания: от каменного топора до скальпеля

Каменный век (2024 год)

Продолжение доступно только участникам

Присоединяйся к сообществу «Xakep.ru»!

1 год

1 месяц

Подпишись на наc в Telegram!