Hotdry.
ai-systems

Taalas HC1 芯片架构解析:17k tokens/sec 推理性能的技术实现与部署边界

深入解析 Taalas HC1 硬编码推理芯片如何实现 17k tokens/sec 极限吞吐,从晶体管级权重存储到 PCIe 部署的完整技术路径。

在 AI 推理领域,延迟与吞吐量一直是工程实践中的核心矛盾。传统 GPU 架构受限于计算与内存之间的物理墙,需要依赖 HBM 堆叠显存才能提供与算力匹配的带宽。然而初创公司 Taalas 给出了一个激进且优雅的解法:将模型权重直接蚀刻到晶体管中,实现无内存瓶颈的专用推理引擎。其首代产品 HC1 在 Llama 3.1 8B 模型上实测达到约 17,000 tokens/sec 的单用户吞吐量,这一数字将当前最顶尖的 GPU 加速卡甩开一个数量级。本文将从硬件架构、存储方案、性能边界三个维度,拆解这套硬编码推理系统的工程细节与实际部署约束。

晶体管级权重存储:消除计算与内存的边界

Taalas HC1 的核心创新在于彻底重构了推理芯片的存储层次。与传统方案不同,HC1 将模型权重视为硬件本身的一部分,而非需要从外部 DRAM 加载的可变数据。公司联合创始人 Ljubisa Bajic 在公开访谈中将其技术描述为「单晶体管完成权重存储与乘法运算」—— 每个权重参数不再需要独立的乘法器电路,而是通过一种被称为 mask ROM recall fabric 的架构,将权重值直接编码到晶体管的物理特性中。

这种设计的密度优势是惊人的。HC1 采用 TSMC N6(6nm)工艺制造,芯片面积达到 815 mm²,已经逼近当前光刻技术的单次曝光极限。封装内包含约 530 亿个晶体管,其中绝大部分用于 ROM 和 SRAM 存储阵列。配合 SRAM recall fabric 负责 KV 缓存与 LoRA 风格适配器的存储,整个系统在单一芯片内完成了传统上需要离散显存与计算芯片协同才能完成的所有工作。由于省去了 HBM 与复杂 I/O 堆栈,HC1 的功耗控制在 200W 左右,可直接部署于标准 PCIe 卡槽,无需液冷或 exotic 封装。

这并不意味着 HC1 失去了全部灵活性。虽然基础模型被「冻结」在硅片中,但 Taalas 仍通过 SRAM 区域支持 fine-tuning 与 context window 调整。客户可以从模型权重到可部署硬件的完整交付周期压榨至两个月,这一速度依赖于与 TSMC 共同优化的 foundry 流程。

17k tokens/sec 的性能解析与对比基准

17,000 tokens/sec 这个数字需要精确理解其前提条件。根据 Taalas 官方披露以及第三方测试机构 Artificial Analysis 的验证,这一吞吐量对应的是 Llama 3.1 8B 模型在单用户场景下的实测结果。这意味着系统无需像 GPU 推理那样进行 query batching 来摊薄开销 —— 因为每个 token 的生成延迟已经足够低(亚毫秒级),单用户即可填满整个计算流水线的吞吐量。

与现有方案的对比更能凸显这一差距。在 Llama 3.1 8B 任务上,Nvidia Blackwell B200 GPU 的实测吞吐量约为数百到一千 tokens/sec 量级;Groq、SambaNova、Cerebras 等专注于推理的 AI 芯片厂商,其 SRAM 强化架构可达到 2,000 到 3,000 tokens/sec 左右。而 Taalas HC1 将这一数字再次提升约 5 到 8 倍。更关键的成本维度:HC1 的推理成本约为 0.0075 美元 / 百万 tokens,相较于 Cerebras 的 0.10 美元 / 百万 tokens 便宜约 13 倍。这意味着在规模化部署时,硬件成本的摊销周期将被显著压缩。

对于更大参数的模型,Taalas 计划通过多卡 pipeline 并行来扩展能力。实测数据展示了 DeepSeek R1 671B 模型在 35 张 HC1 卡集群上的运行表现,延迟与成本同样显著优于等效的 B200 集群。2026 年夏季,Taalas 将推出支持 20B 参数的单一芯片,年底前计划推出名为 HC2 的多芯片系统,可承载 frontier 级别的大模型。

实际部署边界与工程约束

尽管性能数字令人振奋,HC1 的部署模型仍存在不可忽视的边界条件。首先是模型锁定问题:每代芯片对应特定的模型架构与量化版本。从 Llama 3.1 升级到 Llama 4 或其他模型,需要重新流片。Taalas 声称修改两层金属层即可完成模型切换,但这仍然意味着硬件迭代周期而非软件更新。对于追求最新模型能力的用户,这一约束需要与性能收益进行权衡。

其次是规模化并发的经济性。17k tokens/sec 是单用户吞吐量,在多用户场景下需要考虑资源隔离与公平调度。如果 10 个用户同时使用一张 HC1 卡,每用户的实际体验将降至约 1.7k tokens/sec,仍然远优于多数方案,但芯片价格与运维成本需要在这一使用模式下重新分摊。Taalas 目前提供 PCIe 卡形式交付,单卡 200W 功耗,10 卡服务器总功耗约 2.5kW,可用标准机架散热,这降低了数据中心的部署门槛,但对功耗敏感的边缘场景仍需评估。

最后是供应链与产量风险。HC1 依赖台积电 N6 工艺的成熟产能,且单芯片面积接近 reticle 极限,良率挑战客观存在。Taalas 目前手握超过 1.7 亿美元融资,研发投入仅 3,000 万美元,表明其工程效率极高,但后续大规模出货的能力仍待验证。

综合来看,Taalas HC1 代表了一种「专用化极限」的技术路线:放弃通用性以换取密度与能效的指数级提升。在模型迭代周期尚未显著缩短的当下,这种硬编码推理芯片为高吞吐量、低延迟、成本敏感的应用场景提供了极具竞争力的硬件选择。其 17k tokens/sec 的实测性能不仅是一个数字,更是对整个 AI 推理基础设施范式的重新定义。


参考资料

  • The Next Platform: 《Taalas Etches AI Models Onto Transistors To Rocket Boost Inference》
  • Reuters: 《Chip startup Taalas raises $169 million to help build AI chips to take on Nvidia》
查看归档