首页 › 2025年 › 10月 › Adversarial Prompts for Extracting Canary Tokens in GPT-OSS Models
2025年10月06日 ai-systems

Adversarial Prompts for Extracting Canary Tokens in GPT-OSS Models

探讨如何设计对抗提示从 GPT-OSS 生成中提取嵌入的金丝雀令牌,通过相似度阈值和去重策略量化训练数据泄露,并提供工程化参数以实现来源追踪。

内容加载中...