news.shamcode.ru | Возвращение еретика. Как работает новый метод расцензурирования LLM

Возвращение еретика. Как работает новый метод расцензурирования LLM

четверг, 12 февраля 2026 г. в 00:00:10

https://xakep.ru/2026/02/11/abliteration/
Для подписчиков
Языковые модели становятся всё умнее — и, с точки зрения регуляторов, всё опаснее. Свежие релизы отказываются отвечать на провокационные вопросы чаще, чем их предшественники. Некоторые из них — взять ту же GPT-OSS 120B — и вовсе ухитряются потратить большую часть лимита на «размышления», ведя внутренние дебаты о том, не нарушает ли запрос этические гайдлайны.