202509
systems

解析开源文本转CAD架构:自然语言到B-rep模型的工程实现

深入剖析Zoo开源Text-to-CAD技术栈,揭示其如何通过自研几何引擎与ML API实现自然语言到制造级3D模型的精准转换。

自然语言驱动的3D建模正从概念走向工程落地,而开源项目Text-to-CAD(由Zoo公司维护,GitHub组织名Adam-CAD)提供了当前最接近工业实用的技术架构。其核心价值不在于“魔法式”的文生图能力,而在于将模糊的语义描述转化为边界表示(B-rep)的、可直接用于CNC加工或3D打印的精确几何体。这一过程依赖三大支柱:自研几何引擎、程序化设计API与机器学习推理层,三者缺一不可。

首先,底层几何引擎是Text-to-CAD区别于普通生成式AI工具的根本。传统文生3D模型多输出网格(Mesh)或点云,缺乏精确的拓扑与尺寸约束,无法直接用于制造。Zoo团队从零构建了支持B-rep的几何内核,确保生成的每一个面、每一条边都携带精确的数学定义和公差信息。例如,当用户输入“一个12英尺长的I型钢梁,腹板厚度0.24英寸”时,系统不仅生成视觉形状,更在底层创建了符合ASTM标准的参数化实体。这种引擎级控制使得输出文件可直接导入SolidWorks或Fusion 360进行工程分析,而非仅作为视觉参考。

其次,KittyCAD设计API充当了“语义翻译器”与“几何执行器”的双重角色。它接收经ML层解析后的结构化指令(如“extrude sketch by 50mm”或“fillet edge with radius 2mm”),并将其转化为引擎可执行的几何操作序列。该API的开放性允许开发者绕过自然语言界面,直接编程生成复杂模型,也为微调提供了接口。更重要的是,API内置制造约束检查——例如自动检测薄壁结构是否满足3D打印最小壁厚,或铣削刀具能否到达指定区域——从源头避免生成不可制造的“纸上模型”。

顶层的ML-ephant机器学习API负责最关键的“语义-几何映射”。它并非通用大模型,而是针对机械设计语料(如工程图纸注释、零件手册、制造标准)微调的领域专用模型。其输入是原始文本提示,输出则是结构化的操作指令序列与参数字典。例如,“带顶部阀门和两个夹具的氦气罐”会被分解为:1) 创建圆柱体主体;2) 在顶部平面添加阀体凸台;3) 在侧面生成两个环形夹具槽。模型训练数据包含大量配对的“描述-操作历史”,使其能理解行业术语(如“沉头孔”、“退刀槽”)并映射到正确的几何原语。企业用户还可上传私有设计库进行二次训练,使模型适配特定公司的设计规范。

为提升可用性,Text-to-CAD引入了“参数化滑块”机制。初始生成的模型并非终点,而是可交互调整的起点。系统自动识别提示中的关键数值参数(如长度、直径、角度),并将其暴露为UI滑块。用户无需重写提示,拖动滑块即可实时更新模型——背后是引擎对参数化特征树的动态重计算。这一设计极大降低了迭代成本,使非专业用户也能快速探索设计空间。同时,所有操作均保留完整历史,支持版本回溯与协作评审。

当前架构的主要局限在于复杂装配体的处理。系统擅长生成单体零件,但对多零件间的运动约束(如齿轮啮合、铰链转动)或装配顺序理解不足。例如“生成一个36齿的螺旋齿轮”能完美输出单个齿轮,但“设计一对啮合的螺旋齿轮副”则可能产生干涉或传动比错误。解决方案是分层处理:先用Text-to-CAD生成基础零件,再通过传统CAD工具添加装配约束。未来方向或是引入图神经网络,学习零件间的拓扑关系与力学耦合。

对于希望落地该技术的团队,建议从三个层面切入:1) 基础层:部署Zoo Design Studio桌面应用,利用其20次/月的免费额度测试提示工程;2) 优化层:收集内部设计语料,使用ML-ephant API进行领域微调,提升术语匹配精度;3) 集成层:通过KittyCAD API将生成模块嵌入现有PLM系统,实现设计-仿真-制造闭环。监控重点应放在“首次生成可用率”与“平均调整次数”两个指标——前者衡量语义理解准确性,后者反映参数化交互效率。当可用率超过70%且调整次数低于3次时,即可视为具备初步生产力。

文本转CAD不是取代工程师,而是将他们从重复性建模中解放,聚焦于更高价值的创新与优化。其架构演进揭示了一条务实路径:垂直领域数据 + 专用几何引擎 + 可解释的ML映射 = 可落地的工业AI。随着制造知识库的持续注入与多体动力学模块的加入,自然语言或将成为下一代CAD的标准交互语言——而开源项目正铺就这条道路的基石。