首页 › 2025年 › 11月 › Heretic 中的选择性去审查:针对特定表示向量的主题敏感安全机制
2025年11月17日 ai-systems

Heretic 中的选择性去审查:针对特定表示向量的主题敏感安全机制

在 Heretic 中实现选择性去审查,通过针对特定表示向量编辑主题敏感的 LLM 安全对齐,实现细粒度控制而不破坏全局性能。

内容加载中...