首页 › 2025年 › 11月 › 通过表示工程实现 LLM 自动去审查:Heretic 工具的检测与消融安全方向
2025年11月17日 ai-systems

通过表示工程实现 LLM 自动去审查:Heretic 工具的检测与消融安全方向

利用 Heretic 工具,通过表示工程检测并消融激活中的安全方向,实现 LLM 自动去审查,绕过拒绝响应而无需重训练或微调。

内容加载中...