在 AI 推理性能竞赛中,突破性的数字往往伴随着架构层面的根本性变革。Taalas 近期发布的 HC1 芯片以超过 17000 tokens 每秒的输出速率刷新了行业认知,这一数字是当前最快竞争产品的数倍乃至数十倍。理解这一成就背后的系统工程逻辑,对于思考 AI 推理基础设施的未来走向具有重要参考价值。
硬连线架构:从软件模拟到硅晶实现
传统 GPU 推理系统面临的核心瓶颈在于内存带宽与计算单元之间的效率折中。当大语言模型运行在通用图形处理器上时,权重数据需要频繁在高带宽存储器(HBM)与计算核之间搬运,这一数据移动开销在很大程度上抵消了并行计算带来的性能优势。Taalas HC1 采用了截然不同的思路:将整个模型及其权重硬连线到芯片内部,使得模型本身成为计算机硬件的一部分,而非在通用硬件上模拟运行的软件。
这种「模型即计算机」的哲学体现在具体实现上,是采用掩模只读存储器(mask-ROM)存储模型权重,配合可编程静态随机存取存储器(SRAM)用于容纳微调后的权重以及键值缓存(KV Cache)。芯片设计借鉴了 2000 年代初期结构化 ASIC 的思路,仅通过两层掩模的修改即可针对特定模型进行定制。这种极简的掩模修改策略显著降低了新模型适配的成本与周期,Taalas 声称可在大约一周时间内完成从模型到寄存器传输级(RTL)的转化,整体 Tape-out 周期可控制在两个月左右。
性能数据与工程参数
从公开测试数据来看,HC1 在 Llama3.1-8B 模型上实现了约 17000 tokens 每秒的单用户吞吐量。在线演示平台实际测试达到了 15000 tokens 每秒以上的水平。作为对比,同模型在 Cerebras 系统上约为 2000 tokens 每秒,SambaNova 约 900 tokens 每秒,Groq 约 600 tokens 每秒,而 Nvidia 最新 Blackwell 架构硬件在内部测试中约为 350 tokens 每秒。这一性能差距的根本原因在于:HC1 消除了权重加载的内存带宽瓶颈,同时将数据流硬编码为该模型的最优路径,避免了通用 GPU 调度器引入的运行时开销。
芯片采用台积电 N6 制程,芯片面积 815 平方毫米,单芯片功耗约为 250 瓦。十块 HC1 加速卡组成的服务器总功耗约 2.5 千瓦,可直接部署在标准气冷机架中,无需液冷基础设施。从整体拥有成本(TCO)角度计算,Taalas 声称每百万 Llama3.1-8B 推理令牌的成本约为 0.75 美分,即使考虑到每年需要为新模型进行一次 Tape-out 迭代,这一成本仍优于典型 GPU 集群四年更新周期下的单位 Token 成本。
批处理流水线与调度的简化逻辑
传统 GPU 推理系统为了最大化硬件利用率,往往需要复杂的批处理调度策略。系统需要动态决定批处理大小、内存分配、计算核复用等运行时参数,以在吞吐量与尾延迟之间寻找平衡。这类调度问题的复杂性来源于通用硬件必须同时支持多种模型架构与不同的推理场景。相比之下,HC1 的硬连线特性使得调度问题在硬件设计阶段就被「冻结」—— 数据流路径在制造时已确定,运行时无需复杂的调度决策。
这种架构选择的直接后果是软件栈的极度简化。据 Taalas 披露,其整个软件堆栈仅由一名工程师维护,这在大型 GPU 推理集群中是难以想象的。系统层面的复杂性降低不仅体现在开发维护成本上,更体现在部署运维的可靠性上。减少的芯片间高速互联、简化的高速缓存层次、气冷即可满足的散热需求,这些因素共同构成了一个高度紧凑的推理系统。
适用场景与局限性
HC1 所代表的极端专用化路线并非适用于所有场景。其核心限制在于模型灵活性 —— 芯片在出厂时已锁定为特定模型(当前为 Llama3.1-8B),无法直接运行其他架构。这意味着选择该方案需要对模型路线图有长期承诺。Taalas 方面表示,其目标客户是那些模型已经成熟并计划在生产环境中稳定运行一年以上的用户。
对于需要频繁切换模型、多模型并行服务、或对模型微调有强烈需求的场景,通用 GPU 集群仍然是更务实的选择。然而,对于模型已收敛、流量规模大、对单位 Token 成本高度敏感的生产环境,HC1 这样的专用 ASIC 提供了极具竞争力的技术路线。Taalas 计划在 2026 年底前支持前沿级模型,并已在探索多芯片方案以覆盖更大参数规模的模型。
资料来源
本文性能数据与架构细节主要参考 EE Times 对 Taalas 团队的专访报道。
延伸阅读:本文为 AI 基础设施系列的第四篇,前作探讨了 vLLM 调度策略、APEX 混合 CPU-GPU 执行框架以及 LLM 推理中的内存带宽优化等主题。