Spectral Labs 于 2025 年 9 月 15 日发布了 SGS-1,这是业界首个专注于生成结构化 CAD 模型的生成式 AI 系统。与传统生成 3D 点云或网格的模型不同,SGS-1 的核心价值在于其能够输出可被主流 CAD 软件直接解析和编辑的操作序列,这标志着 AI 从 “生成形状” 向 “理解并复现设计过程” 的关键跃迁。尽管官方尚未公布其技术白皮书,但结合当前领域内最前沿的研究成果,我们可以对其核心架构与必须克服的工程挑战进行有根据的剖析。其技术路径极有可能建立在 Transformer 架构之上,并围绕如何高效、准确地建模 CAD 操作序列这一核心问题展开。
首先,SGS-1 的核心架构很可能借鉴了 DeepCAD 等开创性工作的范式,将 CAD 模型视为一个由 “草图” 和 “拉伸” 等基础操作构成的线性指令序列。这种类比自然语言的思路,天然契合 Transformer 模型在处理序列数据方面的强大能力。在输入端,系统需要将每个 CAD 操作(如 “绘制一条从 (0,0) 到 (1,1) 的直线” 或 “将当前轮廓沿 Z 轴拉伸 5 个单位”)编码为一个高维的嵌入向量。这个过程充满挑战,因为 CAD 指令的参数是离散(如操作类型:直线、圆弧、布尔运算)与连续(如坐标、角度、长度)的混合体。一个成熟的工程方案,如 DeepCAD 所采用的,是对连续参数进行量化。例如,将设计空间归一化到一个标准立方体内,再将连续值离散化为 256 个等级,用 8 位整数表示。这不仅简化了模型的输出层设计(从回归问题变为分类问题),更重要的是,它能有效避免因浮点数微小误差导致的几何关系破坏(如本应平行的线不再平行),从而显著提升生成模型的几何精度和鲁棒性。
在模型主体部分,一个典型的架构可能包含一个编码器 - 解码器结构。编码器负责读取和理解输入条件(可能是文本描述、参考图像或一个不完整的草图),将其压缩为一个富含语义信息的潜在向量。解码器则以自回归的方式,根据这个潜在向量和已生成的前序指令,逐步预测下一个最可能的操作及其参数。这里的 “自回归” 是关键,它意味着模型在生成第 N 步操作时,会严格依赖前 N-1 步的结果,这完美模拟了人类设计师在 CAD 软件中一步步构建模型的实际工作流。为了处理长序列依赖和复杂的指令间关系,模型内部会堆叠多层 Transformer 块,每层包含多个注意力头,以捕捉操作之间的全局依赖关系。例如,一个后续的 “布尔切割” 操作,其成功与否完全取决于前序 “拉伸” 操作所创建实体的几何形状和位置,注意力机制能有效建立这种跨步骤的关联。
然而,架构设计只是第一步,真正的工程挑战在于如何确保生成序列的 “有效性” 和 “实用性”。首要挑战是拓扑有效性。并非所有语法正确的操作序列都能生成一个在 CAD 内核中有效的实体。一个常见的失败案例是生成的草图轮廓未能闭合,或者拉伸方向与草图平面不垂直,导致布尔运算失败。现有研究如 CADCrafter,引入了基于 DPO(Direct Preference Optimization)的代码检查机制,通过一个判别器模块对生成的指令序列进行 “可编译性” 评分,并引导模型倾向于生成能成功通过 CAD 内核编译的序列。这可以看作是在模型训练过程中内置了一个 “虚拟 CAD 软件”,实时反馈生成结果的合法性。其次,是控制与多样性之间的平衡挑战。SGS-1 的目标不仅是随机生成模型,更要能根据用户意图进行可控生成。SkexGen 模型提出的 “解耦码本” 思路极具启发性,它将设计变化分解为 “拓扑结构”、“几何形状” 和 “拉伸参数” 三个独立的潜在空间。用户可以通过调整不同码本的向量,分别控制模型的整体结构、局部曲线的弯曲程度或拉伸的长度,从而实现精细化的交互式设计,这极大地提升了模型的实用价值。
最后,数据是驱动这一切的燃料。训练一个强大的 CAD 生成模型,离不开一个高质量、大规模的数据集。DeepCAD 团队为此专门构建了一个包含近 18 万个模型的数据集,通过对 Onshape 等平台上的真实设计进行逆向工程,提取出标准的操作序列。可以合理推测,Spectral Labs 也必然投入了巨大资源来构建其专有的、可能覆盖更广泛操作类型(如圆角、倒角、抽壳)的训练数据。数据的质量和多样性直接决定了模型的泛化能力和创造力。综上所述,SGS-1 所代表的结构化 CAD 生成模型,其技术核心在于用 Transformer 架构驯服了 CAD 操作序列的复杂性,而其工程实现则是一场与参数混合性、序列依赖性和拓扑有效性持续博弈的精密战役。它不仅是算法的胜利,更是系统工程与领域知识深度融合的典范。