2025年09月06日 systems

解析开源文本转CAD架构：自然语言到B-rep模型的工程实现

深入剖析Zoo开源Text-to-CAD技术栈，揭示其如何通过自研几何引擎与ML API实现自然语言到制造级3D模型的精准转换。

内容加载中...

自然语言驱动的3D建模正从概念走向工程落地，而开源项目Text-to-CAD（由Zoo公司维护，GitHub组织名Adam-CAD）提供了当前最接近工业实用的技术架构。其核心价值不在于“魔法式”的文生图能力，而在于将模糊的语义描述转化为边界表示（B-rep）的、可直接用于CNC加工或3D打印的精确几何体。这一过程依赖三大支柱：自研几何引擎、程序化设计API与机器学习推理层，三者缺一不可。

首先，底层几何引擎是Text-to-CAD区别于普通生成式AI工具的根本。传统文生3D模型多输出网格（Mesh）或点云，缺乏精确的拓扑与尺寸约束，无法直接用于制造。Zoo团队从零构建了支持B-rep的几何内核，确保生成的每一个面、每一条边都携带精确的数学定义和公差信息。例如，当用户输入“一个12英尺长的I型钢梁，腹板厚度0.24英寸”时，系统不仅生成视觉形状，更在底层创建了符合ASTM标准的参数化实体。这种引擎级控制使得输出文件可直接导入SolidWorks或Fusion 360进行工程分析，而非仅作为视觉参考。

其次，KittyCAD设计API充当了“语义翻译器”与“几何执行器”的双重角色。它接收经ML层解析后的结构化指令（如“extrude sketch by 50mm”或“fillet edge with radius 2mm”），并将其转化为引擎可执行的几何操作序列。该API的开放性允许开发者绕过自然语言界面，直接编程生成复杂模型，也为微调提供了接口。更重要的是，API内置制造约束检查——例如自动检测薄壁结构是否满足3D打印最小壁厚，或铣削刀具能否到达指定区域——从源头避免生成不可制造的“纸上模型”。

顶层的ML-ephant机器学习API负责最关键的“语义-几何映射”。它并非通用大模型，而是针对机械设计语料（如工程图纸注释、零件手册、制造标准）微调的领域专用模型。其输入是原始文本提示，输出则是结构化的操作指令序列与参数字典。例如，“带顶部阀门和两个夹具的氦气罐”会被分解为：1) 创建圆柱体主体；2) 在顶部平面添加阀体凸台；3) 在侧面生成两个环形夹具槽。模型训练数据包含大量配对的“描述-操作历史”，使其能理解行业术语（如“沉头孔”、“退刀槽”）并映射到正确的几何原语。企业用户还可上传私有设计库进行二次训练，使模型适配特定公司的设计规范。

为提升可用性，Text-to-CAD引入了“参数化滑块”机制。初始生成的模型并非终点，而是可交互调整的起点。系统自动识别提示中的关键数值参数（如长度、直径、角度），并将其暴露为UI滑块。用户无需重写提示，拖动滑块即可实时更新模型——背后是引擎对参数化特征树的动态重计算。这一设计极大降低了迭代成本，使非专业用户也能快速探索设计空间。同时，所有操作均保留完整历史，支持版本回溯与协作评审。

当前架构的主要局限在于复杂装配体的处理。系统擅长生成单体零件，但对多零件间的运动约束（如齿轮啮合、铰链转动）或装配顺序理解不足。例如“生成一个36齿的螺旋齿轮”能完美输出单个齿轮，但“设计一对啮合的螺旋齿轮副”则可能产生干涉或传动比错误。解决方案是分层处理：先用Text-to-CAD生成基础零件，再通过传统CAD工具添加装配约束。未来方向或是引入图神经网络，学习零件间的拓扑关系与力学耦合。

对于希望落地该技术的团队，建议从三个层面切入：1) 基础层：部署Zoo Design Studio桌面应用，利用其20次/月的免费额度测试提示工程；2) 优化层：收集内部设计语料，使用ML-ephant API进行领域微调，提升术语匹配精度；3) 集成层：通过KittyCAD API将生成模块嵌入现有PLM系统，实现设计-仿真-制造闭环。监控重点应放在“首次生成可用率”与“平均调整次数”两个指标——前者衡量语义理解准确性，后者反映参数化交互效率。当可用率超过70%且调整次数低于3次时，即可视为具备初步生产力。

文本转CAD不是取代工程师，而是将他们从重复性建模中解放，聚焦于更高价值的创新与优化。其架构演进揭示了一条务实路径：垂直领域数据 + 专用几何引擎 + 可解释的ML映射 = 可落地的工业AI。随着制造知识库的持续注入与多体动力学模块的加入，自然语言或将成为下一代CAD的标准交互语言——而开源项目正铺就这条道路的基石。