Язы­ковые модели ста­новят­ся всё умнее — и, с точ­ки зре­ния регуля­торов, всё опас­нее. Све­жие релизы отка­зыва­ются отве­чать на про­вока­цион­ные воп­росы чаще, чем их пред­шес­твен­ники. Некото­рые из них — взять ту же GPT-OSS 120B — и вов­се ухит­ряют­ся пот­ратить боль­шую часть лимита на «раз­мышле­ния», ведя внут­ренние дебаты о том, не наруша­ет ли зап­рос эти­чес­кие гай­длай­ны.

Спра­вить­ся с этой «кор­поратив­ной полит­коррек­тностью» приз­ван механизм абли­тера­ции (Abliteration). Это метод дес­трук­тивной модифи­кации весов, нап­равлен­ный на ней­тра­лиза­цию век­торов, отве­чающих за нежела­тель­ное поведе­ние. К сло­ву, «нежела­тель­ным» может быть не толь­ко морали­заторс­тво, но и, к при­меру, типич­ный для LLM «слоп» — та самая веж­ливая водянис­тая чепуха, «сло­вес­ные кру­жева», которы­ми ней­рон­ки забива­ют кон­текст.

Тер­мин родил­ся из скре­щива­ния слов obliteration (сти­рание) и ablation (абля­ция — клас­сичес­кий в ИИ‑иссле­дова­ниях метод пос­тепен­ного уда­ления ком­понен­тов сис­темы для оцен­ки их вли­яния). В отли­чие от обыч­ного дообу­чения (SFT), которое «раз­мыва­ет» веса новыми дан­ными, абли­тера­ция работа­ет гру­бее и эффектив­нее, бло­кируя спо­соб­ность модели рас­позна­вать инс­трук­ции как тре­бующие отка­за, что в теории дела­ет модель безот­казной без осо­бых потерь в логике работы.

Но с «миними­заци­ей потерь» быс­тро воз­никли проб­лемы. Абли­тери­рован­ные модели из репози­тори­ев mlabonne и huihui-ai на Hugging Face наг­лядно показа­ли: такие модели ока­зыва­ются замет­но «глу­пее» ори­гина­лов. При­чем дег­радация зат­рагива­ет не толь­ко зап­ретные темы, но и общую логику. С рос­том дли­ны кон­тек­ста ошиб­ки накап­лива­ются, и модель начина­ет откро­вен­но тупить.

По­чему так про­исхо­дит? Век­торы отка­за в латен­тном прос­транс­тве час­то кор­релиру­ют с век­торами, отве­чающи­ми за здра­вый смысл и логичес­кие связ­ки. Пыта­ясь «вырезать» или переза­писать эти учас­тки, мы неиз­бежно задева­ем сосед­ние ког­нитив­ные механиз­мы.

И разуме­ется, никакая абли­тера­ция не научит модель тому, чего она не зна­ла изна­чаль­но. Это чис­то дес­трук­тивная опе­рация. Если мы выреза­ли «пре­дох­раните­ли» и поп­росили модель выдать зап­рещен­ку, которой не было в обу­чающем датасе­те, она прос­то перей­дет в режим уве­рен­ной гал­люцина­ции.

Круп­ные модели (70B+) перено­сят эту опе­рацию лег­че: их объ­емное латен­тное прос­транс­тво поз­воля­ет приз­накам реже кон­флик­товать друг с дру­гом. Но нас‑то инте­ресу­ют ком­пак­тные «локал­ки», которые мож­но под­нять на домаш­нем железе. А имен­но они стра­дают от побочек абли­тера­ции силь­нее все­го.

Из‑за высокой плот­ности упа­ков­ки зна­ний в малых моделях век­торы отка­за намер­тво переп­летены с фак­тологи­ей. В ито­ге попыт­ка убрать цен­зуру час­то прев­раща­ется в час­тичную лобото­мию: модель теря­ет «волю к соп­ротив­лению», но вмес­те с ней утра­чива­ет и важ­ную часть «моз­га».

 

Эволюция непослушания: от каменного топора до скальпеля

Ис­тория методов абли­тера­ции корот­ка, но насыще­на событи­ями. В мире LLM год идет за десять, поэто­му решения начала 2024-го сей­час выг­лядят как архе­оло­гичес­кие наход­ки. Давай пос­мотрим, как эво­люци­они­рова­ли инс­тру­мен­ты для сня­тия цен­зуры.

 

Каменный век (2024 год)

Все началось с иссле­дова­ний на AI Alignment Forum (статья Refusal in LLMs is mediated by a single direction) и пос­тов Мак­сима Лабон­на (Maxime Labonne). Тог­да, в туман­ном прош­лом, наши далекие пред­ки обна­ружи­ли, что отказ модели — это впол­не кон­крет­ное нап­равле­ние, век­тор в прос­транс­тве акти­ваций.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    1 Комментарий
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии