在AI推理领域,欧洲初创Vsora推出的Jotunn-8芯片标志着fabless模式下5nm工艺的高效实践。该SoC专为突破内存墙设计,自定义NPU实现超低延迟和高吞吐,同时功耗仅为竞品一半,特别适合边缘低功耗部署。
fabless设计的工程核心
Vsora作为无晶圆厂企业,依赖TSMC 5nm制程和CoWoS先进封装,避免巨额建厂投资,转而聚焦架构创新。合作伙伴创意电子(GUC)提供从netlist到量产的全流程服务,集成17.2Gbps GLink-2.5D互联IP和8.4Gbps HBM3E PHY/控制器,确保信号完整性和高带宽。“创意电子为Jotunn8提供全方位的设计服务,全程负责从netlist-in到晶圆制造与量产的所有流程。”这种分工降低风险,加速tape-out,仅用时数月即成功流片。
落地参数:
- 设计迭代阈值:RTL验证覆盖率>95%,功耗模拟误差<5%,使用GUC PDK确保5nm FinFET兼容。
- 供应链清单:TSMC N5P节点+CoWoS-L,HBM3E供应商三星/SK海力士,测试由GUC代管,回滚策略为备用7nm设计。
- 监控点:tape-out后PVT角验证(0.7-1.1V, -40~125°C),良率目标>80%。
自定义NPU架构:低功耗高性能密钥
Jotunn-8的NPU针对推理优化,FP8稠密算力达3200 TFLOPS,配备288GB HBM3E(8TB/s带宽),理论效率接近100%。创新在于内存墙突破:算法无关、主机处理器无关设计,支持LLM、推理模型和Agentic AI混合部署。相比NVIDIA GPU,其半功耗优势源于专用tensor core和RISC-V协处理器卸载。
对于低功耗边缘,借鉴Tyr系列经验,Jotunn-8可缩放至ARM集成SoC:RISC-V核完全on-chip运行AI,offload主机CPU。边缘场景下,动态电压频率调节(DVFS)将功耗控制在50-200W TDP。
可落地配置:
| 参数 |
边缘低功耗模式 |
数据中心模式 |
| TDP |
50-100W |
400W |
| 精度 |
FP8/INT8 |
FP8/FP16 |
| 内存 |
36GB HBM子集 |
288GB |
| 延迟 |
<1ms (Llama3 405B) |
<10ms |
| 吞吐 |
1000 tokens/s |
10k+ tokens/s |
- 集成ARM步骤:1) Armv9-A核对接NPU via AXI5总线;2) 启用TrustZone安全分区隔离推理数据;3) 固件加载自定义调度器,支持KV缓存复用。
- 功耗优化清单:时钟门控>90%电路,异步设计减少切换功耗,热阈值85°C触发降频20%。
ARM集成与边缘部署实践
虽Jotunn-8主攻数据中心,其fabless灵活性允许与ARM生态无缝融合。Vsora强调主机无关,支持ARM Cortex系列集成:RISC-V协处理器处理AI流水线,ARM主核管I/O和控制。边缘部署如智能工厂或自动驾驶,结合低功耗模式,实现“数据中心级性能于边缘”。
部署清单:
- 硬件:Jotunn-8 SoC + ARM SoM(System-on-Module),PCIe Gen5 x16互联。
- 软件栈:Vsora SDK(2026 Q1发布),支持ONNX/TensorRT,编译器优化FP8融合算子。
- 监控&回滚:Prometheus指标(latency_p99<5ms, throughput>95%峰值),异常时fallback至CPU推理。
- 风险缓解:供应链双源(TSMC备用GlobalFoundries),欧盟主权合规预审。
此设计不仅降低TCO(每推理成本减半),还提升可持续性:功率效率0.5W/TFLOPS,碳足迹降40%。2026开发板上市后,开发者可快速原型化。
资料来源:Vsora官网(https://vsora.com/products/jotunn-8/)、IT之家报道(2025-11-24)。