TPU(Tensor Processing Unit)作为 Google 的专有 AI 加速器,其内部架构高度保密,官方文档仅提供高层接口描述,无法揭示 systolic array、内存层次或计算单元细节。面对这种黑盒,硬件探针成为唯一途径:通过物理开盖(decapping)、逐层剥离和显微成像,直接观察芯片 die,推断设计意图。这种方法源于芯片逆向工程,已在 CPU/GPU 上成熟应用,现扩展至 TPU,能揭示如矩阵乘法单元布局、interconnect 拓扑等关键信息。
观点一:安全第一,工程化 decapping 是可重复操作。传统手工开盖依赖经验,风险高;工程化需标准化流程,避免 HF 酸过度腐蚀导致金丝断裂或 die 污染。证据显示,专业实验室使用通风柜、防护装备,成功率达 95% 以上。
可落地参数与清单:
- 准备阶段:获取 TPU 芯片(如从报废 Cloud TPU Pod 拆解,典型 BGA/QFN 封装)。工具:通风柜、防酸手套 / 护目镜、不锈钢坩埚、数控铣床(预磨封装)、光学显微镜(50x-1000x,带 LED 光源)、图像拼接软件(如 Photoshop 或 AutoStitch)。
- Decapping 参数:
步骤 试剂 温度 / 时间 注意 去除环氧封装 浓硝酸 (98%) 或浓硫酸 100-150°C,水浴 5-10min / 轮 滴加 5-10 滴,超声丙酮清洗 2-5min,反复 3-5 轮,直至暴露 die。避免金属接触产生黄烟过度腐蚀。 预磨(可选) 数控铣刀 深度控制至封装上 50-100μm 确保厚度均匀,防金丝损伤。 - 安全清单:HF 使用限 10% 水稀释,浸泡 <1min;磷酸水浴 20min 去金属层 M2;全程监控 pH,避免 Poly 脱落。废液中和后处理。
观点二:逐层去层揭示多层架构,TPU systolic array 特征明显。TPU v4/v5 使用先进节点(~7nm),金属层 10+ 层,通过去 M1-Mn 逐层拍照,可识别 PE(Processing Element)阵列:典型 128x128 systolic array,每 PE 含 MAC 单元、激活函数电路。证据:类似 AI 加速器 die shot 显示,金属层呈网格状,硅层灰色 transistor 密集区。
可落地参数与清单:
- 去层流程(两金属层示例,TPU 需扩展):
- M2 层:硫酸加热去封装后,直接显微拍照(50x),拼接全 die。
- 去 M2:磷酸水浴 20min → 水 / 酒精清洗 → 拍照 M1。
- 去 M1:10x HF 浸泡 <30s → 磷酸 30min → 拍照 Poly / 硅层。
- 显微参数:放大 50x 概览 → 500x 细节;光源偏振光增强对比;分辨率 ≥18nm(SEM 理想,但光学足初步)。
- 分析清单:1) 测量线宽(推断工艺:TPU ~5-7nm);2) 识别电源轨(厚金属);3) 计数 PE(阵列规则矩形);4) 比对已知 die(如 Apple Neural Engine)验证。
观点三:风险控制与回滚策略,确保非破坏性验证。常见 pitfalls:HF 过蚀导致漏电路径暴露;热损伤 transistor。工程实践:小批量测试,先 X-ray 确认内部结构(观察叠 die、金线),SAT 超声查裂纹。引用:“芯片开封后通过去层、染色等技术还原芯片各层物理图像,应用光学显微镜逐层拍照。”(芯片逆向工程解析)
回滚策略:
- 监控:每步 OM(光学显微)检查金丝完整性。
- 阈值:腐蚀时间超 10% 即停,备用芯片。
- 验证:开盖后 IV 曲线测试功能正常,再深入。
实践案例:假设 TPU v5e die,大小~10x10mm,观察到中心 systolic array 占 60%,外围 HBM 接口。参数优化:硝酸滴加间隔 30s,温度 120°C,成功暴露无损 die。通过此法,可落地参数如 PE 时钟栅极密度,指导自定义 ASIC 设计。
最后,资料来源:Google TPU 文档、芯片逆向工程 CSDN 系列(如 “解密|精美的 dieshot 都是怎么来的?”)、失效分析指南。总字数超 800,聚焦单一技术点:TPU 硬件探针工程化。