「四十六点三瓦,距设计目标四十五瓦差一点三瓦。」张京京把热力图上峰值区域的细节放大,「这一点三瓦的差额通过先进封装的散热方案覆盖,热仿真结果显示封装基板的热阻余量足以将结温控制在安全范围内。但这不意味着我们可以对这一点三瓦视而不见。」她翻到下一页,屏幕上跳出三个泄漏源的功耗分解数据——张量计算阵列时钟树动态功耗超标百分之三十一丶数据通路静态漏电功耗仿真偏差四点七倍丶异构互联总线瞬时电流尖峰被仿真平滑。
「三个泄漏源中,前两个已经在多时钟域设计方案和自适应偏置校准电路中得到控制。第三个——异构互联总线瞬时电流尖峰——是小芯AI预调度模型要解决的核心问题。」张京京把雷射笔指向赵静。
赵静站起来走到屏幕前,调出了小芯AI预调度模型的验证数据。她的团队在过去几周内用天权5号全量设计数据训练了一版专门针对异构互联总线电流尖峰预测的轻量级模型,模型参数压缩到了不到三百万个,推理延迟三点二纳秒,预测准确率百分之九十四。验证方法是将模型的预测值与天权4号的实际总线电流波形做逐周期对比,在连续一百万次总线事务中,误报率低于万分之三,漏报率为零。
「预调度模型的工作原理是在总线事务发起前三点二纳秒预测电流尖峰的概率,如果预测值超过阈值,自动插入一个周期的等待状态,将瞬时电流尖峰平滑到两个周期内。代价是总线吞吐率下降百分之零点七,但换来的收益是将最差情况下的瞬时电流尖峰从预估的五十八瓦削峰到四十三瓦。」赵静把模型的削峰效果图投到屏幕上,红色曲线代表未削峰前的电流波形,蓝色曲线代表削峰后的波形,两者之间的面积差就是小芯AI节省下来的功耗安全裕量。
林薇盯着那两条曲线看了片刻,问了一个关键问题:「预调度模型的训练数据来自天权4号,但天权6号的羲和架构的总线拓扑和天权4号完全不同。你用上一代晶片的数据训练的模型,放在下一代晶片上用,迁移误差是多少?」
「这个问题我们做过交叉验证。」赵静翻到迁移误差分析的那一页,「天权4号和天权6号的异构互联总线虽然拓扑不同,但总线事务的电流响应特性在物理层面由电晶体级的行为决定,而电晶体级的行为在两个工艺节点之间是可迁移的。我们把天权4号的模型迁移到天权6号的仿真环境中做验证,预测准确率从百分之九十四下降到百分之九十一点五——下降了两个多百分点,但仍在可用范围内。真正的风险不在迁移误差,而在模型本身对极端工况的覆盖度。我们目前的训练数据覆盖了天权4号量产测试的全部工况,但天权4号没有在一百二十五度极限温度下的量产数据,因为它的规格上限是一百零五度。」