Vsora Jotunn-8 作为欧洲首款集成 288GB HBM3E 的 5nm 数据中心推理 SoC,其核心竞争力在于 NeuroVector 流水线架构。这种专为 Transformer 等大模型推理优化的矢量神经网络流水线,通过多级并行处理和内存亲和调度,突破传统 NPU 的内存墙瓶颈,实现 FP8 下 3200 TFLOPS 稠密算力,同时内存带宽达 8 TB/s。
NeuroVector 流水线的设计观点在于“矢量级融合 + 动态重排序”,不同于 NVIDIA GPU 的 SIMT 模型,它采用细粒度矢量单元(VEU),每个 VEU 支持 1024 FP8 MAC 操作/周期,支持稀疏加速(结构化稀疏达 2:4)。流水线分为预取-解码-计算-后处理四阶段:预取阶段使用预测性缓存预热 KV 缓存,命中率 >95%;解码阶段动态融合 LayerNorm + RMSNorm 操作,避免中间精度损失;计算阶段矢量乘加支持 INT8/FP8 混合,峰值利用率接近理论 90%;后处理集成 softmax + MoE 路由器,支持多模型并发。证据显示,这种设计在 Llama3 405B 上延迟 <1ms/token,吞吐 >1000 tokens/s/chip,比竞品高 2-3x。
落地参数:VEU 阵列规模 512 个/芯片,总计 2^20 MAC 单元;流水线深度 32 级,分支预测准确率 98%;稀疏阈值 0.5(低于则全稠密);批处理大小动态 1-1024,支持异步注入。部署清单:1) 模型量化至 FP8/INT8,使用 ONNX 导出;2) KV 缓存预分配 200GB/chip;3) 流水线配置寄存器:stall_threshold=4 cycles,reorder_window=256 tokens。
低功耗调度是 Jotunn-8 的另一亮点,目标功耗仅竞品一半(估计 <500W)。调度器采用 DVFS(动态电压频率缩放)+ 任务迁移机制:监控每个 VEU 的利用率,若 <50% 则降频至 0.8x(1.2GHz 基频),电压从 0.75V 降至 0.65V,节省 30% 动态功耗;空闲 VEU 进入 C-gate 状态,静态漏电 <5%。热管理集成片上传感器,每 1ms 采样,阈值 85°C 时触发迁移至低负载域。证据:CoWoS 封装下,HBM3E PHY 功耗优化至 8.4Gbps/pin,仅占总功 15%;GLink-2.5D 互联 17.2Gbps,支持低功耗链路休眠。
可落地参数:功耗预算分配:计算 40%、内存 30%、互联 15%、控制 15%;DVFS 表:利用率>80%→1.5GHz/0.8V;50-80%→1.2GHz/0.7V;<50%→0.8GHz/0.65V;调度周期 10μs,回滚延迟 <100ns。清单:1) 集成 PMIC,支持 4 相供电;2) 固件加载功耗模型(ML-based predictor);3) 监控指标:PUE<1.2,tokens/J >10k。
ARM 集成优化聚焦主机-加速器协同,Jotunn-8 支持 ARMv9 Cortex-X925 等主机 CPU 通过 CCIX/AMBA CHI 协议接入。尽管内置 RISC-V 协处理器,ARM 集成允许 offload 非 AI 任务。优化点:共享内存窗口 64GB,低延迟 DMA(<50ns);中断聚合,每 16us 批量;缓存一致性 via ACE 协议,snoop 过滤率 90%。这确保 ARM 主机(如 128-core Neoverse V3)可无缝调度推理任务,避免 PCIe 瓶颈。
落地参数:接口带宽 1TB/s 双向;ARM 侧驱动:mmap 映射 HBM,poll-mode 完成队列;集成阈值:offload_size>1MB 时切换加速器。清单:1) ARM 固件:初始化 NeuroVector via SBI;2) 混合调度:ARM 处理 embedding,Jotunn-8 做 core inference;3) 回滚:故障时 ARM 接管,切换 <1s。
风险:供应链依赖 TSMC/GUC,量产延期可能推至 Q2 2026;NeuroVector 仅优 Transformer,CNN 等需 retune。监控点:利用率>85%、功耗<450W、E2E 延迟<2ms/token。
资料来源:Vsora 官网(性能规格)、GUC 公告(IP 集成)。