SGS-1 非 Transformer 架构解析:参数化输出与几何约束求解的工程化路径
对比主流 Transformer 方案,解析 SGS-1 如何通过非序列化架构实现参数化 CAD 输出与混合约束求解,提供可落地的工程参数与监控清单。
在生成式 AI 渗透工程设计的浪潮中,Spectral Labs 于 2025 年 9 月发布的 SGS-1 模型,首次以非 Transformer 架构实现了结构化 CAD 的生成。这一突破不仅挑战了以 DeepCAD、SkexGen 等为代表的序列建模范式,更将“空间智能”从口号落地为可工程化的参数输出与约束求解能力。本文不复述新闻,而是下沉至技术实现层,解析其与主流方案的工程化差异,并给出可直接用于系统设计的参数清单与监控点。
主流 Transformer 方案的核心,是将 CAD 建模过程抽象为“命令序列”——无论是草图轮廓的 SOL-L-A-R 指令,还是拉伸操作的 E 命令,都被编码为离散 token,再通过自回归 Transformer 逐 token 生成。这种方法的优势在于复用成熟的 NLP 技术栈,但其本质缺陷在于“序列化瓶颈”:它假设设计意图可以通过线性步骤完全表达,却忽略了 CAD 中几何元素间天然的并行与拓扑关系。例如,一个矩形轮廓的四条边,其“首尾相接”与“两两平行”的约束,在序列模型中必须被拆解为多个离散步骤,模型需在生成第四条边时“回忆”第一条边的参数,这不仅低效,更易因长程依赖失效而产生几何不一致。参数量化(如 DeepCAD 将连续值离散为 256 级)虽能缓解回归误差,却无法根治架构层面的空间感知缺失。
SGS-1 的非 Transformer 架构,则从底层回避了这一瓶颈。其官方描述“Spatial Intelligence”与“reasoning models for engineering physical systems”暗示,它很可能采用图结构或专用几何求解器作为核心。这并非空想,工程界早有先例:密歇根理工大学提出的 MFASS 算法(Modified Frontier Algorithm with Solution Selection),便是通过图分解处理包含等式与不等式混合的几何约束系统。SGS-1 极可能将 CAD 模型表示为“几何图”——节点为点、线、弧等图元,边为距离、角度、相切等约束关系。生成过程不再是“下一步画什么”,而是“如何求解当前图的约束系统”。这种范式下,参数化输出天然具备结构化特征:模型直接输出图元的坐标、半径、角度等连续参数,而非离散 token,避免了量化带来的精度损失;同时,约束求解器能显式处理“平行”“垂直”等关系,确保几何一致性,无需依赖模型隐式学习。
工程化落地的关键,在于参数格式与求解策略的对比。主流 Transformer 方案的输出是“命令流”,其工程参数聚焦于序列控制:最大序列长度(如 60)、token 词表大小(如 256 级量化)、自回归采样温度(控制多样性)。而 SGS-1 的输出更接近“参数包”,其核心参数应围绕几何图与求解器:图元类型支持清单(点/线/弧/圆/样条)、约束类型支持矩阵(距离/角度/相切/对称/不等式)、求解器迭代上限、回溯深度阈值。例如,处理一个带圆角的矩形时,Transformer 需生成“画四条线→添加四个圆角”的序列,而 SGS-1 可能直接输出四个角点坐标、四条边向量、四个圆角半径,并由求解器验证“相邻边垂直”与“圆角与边相切”的约束是否满足。后者在工程上更易调试:若输出无效,问题可定位至具体图元参数或约束冲突,而非模糊的“第 37 个 token 生成错误”。
基于此,我们可提炼出 SGS-1 架构的工程化监控清单:1) 图元完备性检查:输出中是否包含所有必需图元类型,缺失类型需告警;2) 约束可解性验证:在生成后立即调用轻量级求解器进行预验证,标记不可解约束组;3) 参数范围熔断:对坐标、半径等连续参数设置物理合理范围(如半径 > 0),超限值自动截断或重采;4) 求解耗时监控:记录单次求解耗时,超阈值(如 500ms)触发降级策略(如简化约束或回退至近似解)。这些监控点直指非 Transformer 架构的核心风险——求解器可能因约束冲突或数值不稳定而失败,但同时也提供了比序列模型更精确的故障定位能力。
尽管缺乏 SGS-1 的源码细节,但其架构哲学已足够清晰:用空间原生的图与求解器,取代时间序列的 token 与自回归。这不仅是技术选型的差异,更是对“设计本质”的回归——CAD 的核心是几何关系,而非操作步骤。对于工程团队而言,选择 SGS-1 路径意味着放弃现成的 Transformer 生态,转而构建专用的几何表示与求解流水线,短期成本更高,但长期在精度、可控性与可解释性上具备压倒性优势。当你的下一个 CAD 生成项目需要处理复杂装配体或严格公差时,或许该问问自己:我们是在生成文本,还是在求解几何?