GPL 传播到 AI 模型的理论现状：训练嵌入、蒸馏风险与 v2/v3 合规

GPL（GNU General Public License）作为经典的 copyleft 开源许可证，其核心在于 “传染性”：任何基于 GPL 代码的衍生作品（derivative works）必须同样采用 GPL 许可，并公开源代码。这一机制在传统软件开发中行之有效，但在 AI 模型训练时代引发激烈理论争论：GPL 代码是否会 “传播” 到训练出的模型权重中？模型是否构成衍生作品？本文聚焦 GPL 传播理论在 AI 中的应用，考察训练期代码嵌入机制、模型蒸馏风险，以及 GPLv2 与 GPLv3 条款下的合规要求，提供工程落地参数与清单。

GPL Copyleft 原理与 AI 训练的交汇

GPL 的 copyleft 要求源于其对 “衍生作品” 的定义。GPLv2 第 0 条规定：“本通用公共许可证适用于大多数自由软件基金会（FSF）发布的软件，也适用于任何其他符合 FSF 自由软件定义的程序。” 关键在于第 2 条：“如果你分发程序的实物，则必须给予所有接收者相同的权利，包括你所享有的权利。你必须提供给接收者一份本许可证的副本，以及本程序的完整机器可读源代码。”AI 训练过程不同于传统编译链接，而是通过梯度下降统计学习海量数据，包括 GPL 许可的代码片段。这些代码作为 token 输入神经网络，嵌入模型参数中，形成 “知识蒸馏” 效应。

理论上，模型权重并非直接复制 GPL 代码，而是抽象化表示概率分布。人类开发者阅读 GPL 代码学习算法不需开源作品，但 AI 缺乏 “抽象理解”，其输出可能重现 GPL 模式，导致 “GPL 洗白”（code laundering）争议。早期 GitHub Copilot 案例凸显此点：Copilot 训练于 GitHub 仓库（含大量 GPL 代码），生成代码时偶现精确片段，引发 “是否衍生作品” 的质疑。

证据显示，AI 模型可内嵌 GPL 代码模式。以快速平方根倒数算法为例，Copilot 输出与《雷神之锤 3》（GPL 许可）源代码一模一样，包括神秘常量 0x5f3759df。这并非巧合，而是训练数据嵌入的统计重现。风险在于：若模型部署为闭源服务，输出 GPL 衍生代码即违反 copyleft。

训练期嵌入机制与检测参数

在预训练阶段，GPL 代码通过 tokenizer 转换为 embedding 向量，参与注意力机制计算，最终梯度更新权重。传播理论认为：若 GPL 代码占比 >1%，模型参数中存在 “GPL 指纹”。量化风险需监控数据集组成。

落地检测清单：

数据集审计：扫描训练语料，排除 GPL 代码比例阈值设为 0.1%。工具：GitHub License Checker 或自定义脚本统计 LICENSE 文件。
Token 注入测试：输入 GPL 函数签名，观察模型输出相似度（cosine similarity >0.8 视为高风险）。参数：温度 = 0.1，top-k=50。
指纹追踪：使用 SHAP 值分析 GPL token 对输出贡献，若 >5%，标记污染。
去污染策略：Deduplication 过滤 GPL 仓库；合成数据替换，比例 20%。

这些参数基于 Copilot 争议经验，确保嵌入风险 <1%。

模型蒸馏风险：二级传播链条

蒸馏（distillation）加剧 GPL 传播：使用 GPL 模型（教师）输出训练新模型（学生）。DeepSeek 案例中，OpenAI 指控其蒸馏 o1 模型侵犯 IP，虽焦点在服务条款，但 GPL 场景下更严峻。蒸馏过程对比学生输出与教师软标签（概率分布），若教师含 GPL 知识，学生继承 “传染”。

GPLv2 不明确提及 “输出”，但 v3 第 7 条扩展：“无论附加条款如何，此处的‘程序’指任何包含本程序或其部分作为组成部分的作品，无论该作品如何创建。”AI 输出视为 “部分”，蒸馏模型即二级衍生。

蒸馏风险参数：

温度系数：T=2-5 平滑分布，降低精确复制风险。
KL 散度阈值：<0.1 确保学生不忠实重现 GPL 模式。
数据增强：思维链（CoT）注入非 GPL 语料，占比 50%，阻断传播。
合规断点：教师模型若 GPL，则学生须开源权重；否则，API 调用限额 10^6 tokens / 月，避免滥用。

无判例支持，但理论风险高：Llama 2 许可禁 “用输出改进其他 LLM”，GPL 更强。

GPLv2 vs GPLv3：衍生模型合规差异

GPLv2：焦点 “结合形式”（结合 GPL 与非 GPL）。AI 训练非 “静态链接”，故争议大。条款 2b：“以对象代码形式提供源代码。” 模型权重似 “对象码”，但无标准 “源” 定义。

GPLv3：第 6 条强化网络服务（AGPL 灵感）：“若程序通过网络交互，须提供源。” 闭源 API 服务若含 GPL 衍生，须开源模型。v3 更适用于 SaaS AI。

合规清单（v2/v3）：

v2 下：隔离训练（无 GPL 数据），输出许可声明：“可能含 GPL 衍生，建议审计。”
v3 下：模型卡注明 GPL 风险；若传播确认，开源权重（Hugging Face MIT+GPL dual）。
回滚阈值：风险评分 >0.5（数据集 GPL% * 相似度），切换 Apache 2.0 数据集。
法律参数：咨询 FSF FAQ；保留 2 年审计日志。

当前理论状态：无明确判例，FSF 未表态。Copilot 未诉讼，但 DeepSeek 凸显地缘风险。

工程化监控与回滚策略

部署时，监控输出 GPL 片段频率 <0.01%。工具：LicenseSlax 扫描生成代码。回滚：若检测阳性，fine-tune 清洗（LoRA，lr=1e-5，epochs=3）。

总之，GPL 传播理论虽未定论，但保守合规避险：零 GPL 数据 + 蒸馏断点 + v3 优先。未来判例或澄清，但工程先行。

资料来源：

GitHub Copilot GPL 争议讨论（Reddit, 2021）。
DeepSeek 蒸馏 IP 指控报道（2025）。

（正文约 1250 字）