2025年09月21日 ai-systems

剖析首个结构化CAD生成模型SGS-1：基于Transformer的序列架构与工程实现挑战

聚焦SGS-1模型，解析其基于Transformer处理CAD操作序列的核心架构，并探讨参数混合性、序列依赖与拓扑有效性等关键工程挑战。

内容加载中...

Spectral Labs于2025年9月15日发布了SGS-1，这是业界首个专注于生成结构化CAD模型的生成式AI系统。与传统生成3D点云或网格的模型不同，SGS-1的核心价值在于其能够输出可被主流CAD软件直接解析和编辑的操作序列，这标志着AI从“生成形状”向“理解并复现设计过程”的关键跃迁。尽管官方尚未公布其技术白皮书，但结合当前领域内最前沿的研究成果，我们可以对其核心架构与必须克服的工程挑战进行有根据的剖析。其技术路径极有可能建立在Transformer架构之上，并围绕如何高效、准确地建模CAD操作序列这一核心问题展开。

首先，SGS-1的核心架构很可能借鉴了DeepCAD等开创性工作的范式，将CAD模型视为一个由“草图”和“拉伸”等基础操作构成的线性指令序列。这种类比自然语言的思路，天然契合Transformer模型在处理序列数据方面的强大能力。在输入端，系统需要将每个CAD操作（如“绘制一条从(0,0)到(1,1)的直线”或“将当前轮廓沿Z轴拉伸5个单位”）编码为一个高维的嵌入向量。这个过程充满挑战，因为CAD指令的参数是离散（如操作类型：直线、圆弧、布尔运算）与连续（如坐标、角度、长度）的混合体。一个成熟的工程方案，如DeepCAD所采用的，是对连续参数进行量化。例如，将设计空间归一化到一个标准立方体内，再将连续值离散化为256个等级，用8位整数表示。这不仅简化了模型的输出层设计（从回归问题变为分类问题），更重要的是，它能有效避免因浮点数微小误差导致的几何关系破坏（如本应平行的线不再平行），从而显著提升生成模型的几何精度和鲁棒性。

在模型主体部分，一个典型的架构可能包含一个编码器-解码器结构。编码器负责读取和理解输入条件（可能是文本描述、参考图像或一个不完整的草图），将其压缩为一个富含语义信息的潜在向量。解码器则以自回归的方式，根据这个潜在向量和已生成的前序指令，逐步预测下一个最可能的操作及其参数。这里的“自回归”是关键，它意味着模型在生成第N步操作时，会严格依赖前N-1步的结果，这完美模拟了人类设计师在CAD软件中一步步构建模型的实际工作流。为了处理长序列依赖和复杂的指令间关系，模型内部会堆叠多层Transformer块，每层包含多个注意力头，以捕捉操作之间的全局依赖关系。例如，一个后续的“布尔切割”操作，其成功与否完全取决于前序“拉伸”操作所创建实体的几何形状和位置，注意力机制能有效建立这种跨步骤的关联。

然而，架构设计只是第一步，真正的工程挑战在于如何确保生成序列的“有效性”和“实用性”。首要挑战是拓扑有效性。并非所有语法正确的操作序列都能生成一个在CAD内核中有效的实体。一个常见的失败案例是生成的草图轮廓未能闭合，或者拉伸方向与草图平面不垂直，导致布尔运算失败。现有研究如CADCrafter，引入了基于DPO（Direct Preference Optimization）的代码检查机制，通过一个判别器模块对生成的指令序列进行“可编译性”评分，并引导模型倾向于生成能成功通过CAD内核编译的序列。这可以看作是在模型训练过程中内置了一个“虚拟CAD软件”，实时反馈生成结果的合法性。其次，是控制与多样性之间的平衡挑战。SGS-1的目标不仅是随机生成模型，更要能根据用户意图进行可控生成。SkexGen模型提出的“解耦码本”思路极具启发性，它将设计变化分解为“拓扑结构”、“几何形状”和“拉伸参数”三个独立的潜在空间。用户可以通过调整不同码本的向量，分别控制模型的整体结构、局部曲线的弯曲程度或拉伸的长度，从而实现精细化的交互式设计，这极大地提升了模型的实用价值。

最后，数据是驱动这一切的燃料。训练一个强大的CAD生成模型，离不开一个高质量、大规模的数据集。DeepCAD团队为此专门构建了一个包含近18万个模型的数据集，通过对Onshape等平台上的真实设计进行逆向工程，提取出标准的操作序列。可以合理推测，Spectral Labs也必然投入了巨大资源来构建其专有的、可能覆盖更广泛操作类型（如圆角、倒角、抽壳）的训练数据。数据的质量和多样性直接决定了模型的泛化能力和创造力。综上所述，SGS-1所代表的结构化CAD生成模型，其技术核心在于用Transformer架构驯服了CAD操作序列的复杂性，而其工程实现则是一场与参数混合性、序列依赖性和拓扑有效性持续博弈的精密战役。它不仅是算法的胜利，更是系统工程与领域知识深度融合的典范。