在 AI 推理领域,欧洲初创 Vsora 推出的 Jotunn-8 芯片标志着 fabless 模式下 5nm 工艺的高效实践。该 SoC 专为突破内存墙设计,自定义 NPU 实现超低延迟和高吞吐,同时功耗仅为竞品一半,特别适合边缘低功耗部署。
fabless 设计的工程核心
Vsora 作为无晶圆厂企业,依赖 TSMC 5nm 制程和 CoWoS 先进封装,避免巨额建厂投资,转而聚焦架构创新。合作伙伴创意电子(GUC)提供从 netlist 到量产的全流程服务,集成 17.2Gbps GLink-2.5D 互联 IP 和 8.4Gbps HBM3E PHY / 控制器,确保信号完整性和高带宽。“创意电子为 Jotunn8 提供全方位的设计服务,全程负责从 netlist-in 到晶圆制造与量产的所有流程。” 这种分工降低风险,加速 tape-out,仅用时数月即成功流片。
落地参数:
- 设计迭代阈值:RTL 验证覆盖率 > 95%,功耗模拟误差 < 5%,使用 GUC PDK 确保 5nm FinFET 兼容。
- 供应链清单:TSMC N5P 节点 + CoWoS-L,HBM3E 供应商三星 / SK 海力士,测试由 GUC 代管,回滚策略为备用 7nm 设计。
- 监控点:tape-out 后 PVT 角验证(0.7-1.1V, -40~125°C),良率目标 > 80%。
自定义 NPU 架构:低功耗高性能密钥
Jotunn-8 的 NPU 针对推理优化,FP8 稠密算力达 3200 TFLOPS,配备 288GB HBM3E(8TB/s 带宽),理论效率接近 100%。创新在于内存墙突破:算法无关、主机处理器无关设计,支持 LLM、推理模型和 Agentic AI 混合部署。相比 NVIDIA GPU,其半功耗优势源于专用 tensor core 和 RISC-V 协处理器卸载。
对于低功耗边缘,借鉴 Tyr 系列经验,Jotunn-8 可缩放至 ARM 集成 SoC:RISC-V 核完全 on-chip 运行 AI,offload 主机 CPU。边缘场景下,动态电压频率调节(DVFS)将功耗控制在 50-200W TDP。
可落地配置:
| 参数 | 边缘低功耗模式 | 数据中心模式 |
|---|---|---|
| TDP | 50-100W | 400W |
| 精度 | FP8/INT8 | FP8/FP16 |
| 内存 | 36GB HBM 子集 | 288GB |
| 延迟 | <1ms (Llama3 405B) | <10ms |
| 吞吐 | 1000 tokens/s | 10k+ tokens/s |
- 集成 ARM 步骤:1) Armv9-A 核对接 NPU via AXI5 总线;2) 启用 TrustZone 安全分区隔离推理数据;3) 固件加载自定义调度器,支持 KV 缓存复用。
- 功耗优化清单:时钟门控 > 90% 电路,异步设计减少切换功耗,热阈值 85°C 触发降频 20%。
ARM 集成与边缘部署实践
虽 Jotunn-8 主攻数据中心,其 fabless 灵活性允许与 ARM 生态无缝融合。Vsora 强调主机无关,支持 ARM Cortex 系列集成:RISC-V 协处理器处理 AI 流水线,ARM 主核管 I/O 和控制。边缘部署如智能工厂或自动驾驶,结合低功耗模式,实现 “数据中心级性能于边缘”。
部署清单:
- 硬件:Jotunn-8 SoC + ARM SoM(System-on-Module),PCIe Gen5 x16 互联。
- 软件栈:Vsora SDK(2026 Q1 发布),支持 ONNX/TensorRT,编译器优化 FP8 融合算子。
- 监控 & 回滚:Prometheus 指标(latency_p99<5ms, throughput>95% 峰值),异常时 fallback 至 CPU 推理。
- 风险缓解:供应链双源(TSMC 备用 GlobalFoundries),欧盟主权合规预审。
此设计不仅降低 TCO(每推理成本减半),还提升可持续性:功率效率 0.5W/TFLOPS,碳足迹降 40%。2026 开发板上市后,开发者可快速原型化。
资料来源:Vsora 官网(https://vsora.com/products/jotunn-8/)、IT 之家报道(2025-11-24)。