Содержание статьи
Справиться с этой «корпоративной политкорректностью» призван механизм аблитерации (Abliteration). Это метод деструктивной модификации весов, направленный на нейтрализацию векторов, отвечающих за нежелательное поведение. К слову, «нежелательным» может быть не только морализаторство, но и, к примеру, типичный для LLM «слоп» — та самая вежливая водянистая чепуха, «словесные кружева», которыми нейронки забивают контекст.
Термин родился из скрещивания слов obliteration (стирание) и ablation (абляция — классический в ИИ‑исследованиях метод постепенного удаления компонентов системы для оценки их влияния). В отличие от обычного дообучения (SFT), которое «размывает» веса новыми данными, аблитерация работает грубее и эффективнее, блокируя способность модели распознавать инструкции как требующие отказа, что в теории делает модель безотказной без особых потерь в логике работы.
Но с «минимизацией потерь» быстро возникли проблемы. Аблитерированные модели из репозиториев mlabonne и huihui-ai на Hugging Face наглядно показали: такие модели оказываются заметно «глупее» оригиналов. Причем деградация затрагивает не только запретные темы, но и общую логику. С ростом длины контекста ошибки накапливаются, и модель начинает откровенно тупить.
Почему так происходит? Векторы отказа в латентном пространстве часто коррелируют с векторами, отвечающими за здравый смысл и логические связки. Пытаясь «вырезать» или перезаписать эти участки, мы неизбежно задеваем соседние когнитивные механизмы.
И разумеется, никакая аблитерация не научит модель тому, чего она не знала изначально. Это чисто деструктивная операция. Если мы вырезали «предохранители» и попросили модель выдать запрещенку, которой не было в обучающем датасете, она просто перейдет в режим уверенной галлюцинации.
Крупные модели (70B+) переносят эту операцию легче: их объемное латентное пространство позволяет признакам реже конфликтовать друг с другом. Но нас‑то интересуют компактные «локалки», которые можно поднять на домашнем железе. А именно они страдают от побочек аблитерации сильнее всего.
Из‑за высокой плотности упаковки знаний в малых моделях векторы отказа намертво переплетены с фактологией. В итоге попытка убрать цензуру часто превращается в частичную лоботомию: модель теряет «волю к сопротивлению», но вместе с ней утрачивает и важную часть «мозга».
Эволюция непослушания: от каменного топора до скальпеля
История методов аблитерации коротка, но насыщена событиями. В мире LLM год идет за десять, поэтому решения начала 2024-го сейчас выглядят как археологические находки. Давай посмотрим, как эволюционировали инструменты для снятия цензуры.
Каменный век (2024 год)
Все началось с исследований на AI Alignment Forum (статья Refusal in LLMs is mediated by a single direction) и постов Максима Лабонна (Maxime Labonne). Тогда, в туманном прошлом, наши далекие предки обнаружили, что отказ модели — это вполне конкретное направление, вектор в пространстве активаций.
Продолжение доступно только участникам
Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».
Присоединяйся к сообществу «Xakep.ru»!
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее
