重回1990：我的科技强国路

芯谷研究院的晶片验证大厅，面积超过一千平方米，地面铺着防静电地板，天花板上的高效过滤器发出均匀的低频嗡鸣。大厅中央排列着十八个测试舱，每个测试舱都是一台独立的环境模拟设备，可以精确控制温度丶湿度丶电压丶震动频率。两百一十六颗天权4号工程样片已经在这些测试舱里连续运转了二十三天，每天二十四小时，每周七天，不间断。

记住首发网站域名??????????.??????

章宸站在测试数据监控台前，面前的六块大屏幕同时显示着不同维度的测试数据。温度曲线丶电压波动丶时钟抖动丶错误率丶功耗分布丶热成像，每一组数据都在实时跳动。他已经在这里站了四个小时，从凌晨五点到现在，只喝了两杯黑咖啡。

天权4号的首轮工程改良评审，原定于两周前进行。但因为NPU调度器的回退RTL和流片延迟五周，整个时间轴往后推了。那五周里，章宸的团队没有一天休息。NPU调度器的问题最终定位到一个边界条件处理错误——当NPU的四个核心同时访问共享缓存时，仲裁逻辑在某个极其罕见的时序组合下会产生优先级反转，导致其中一个核心被无限期阻塞。

这个bug隐藏在RTL代码的深处，是三个年轻的工程师写的。代码审查通过了，仿真通过了，FPGA原型验证通过了。但在真实晶片上，在特定的温度丶电压丶工艺角组合下，它被触发了。概率很低，千分之一不到，但低概率不等于不存在。在天权4号的设计哲学里，任何不确定的行为都是不可接受的。

章宸在问题定位后的第二天，召集了整个晶片团队，在会议室里站成一圈。他没有骂任何人，只说了一句话：「这个bug能活到现在，不是写代码的人的问题，是我们的验证方法有问题。我们的验证覆盖了『可能出错的地方』，但没有覆盖『不可能出错的地方』。从今天开始，验证团队要换一种思路——假设每一行代码都是错的，然后去证明它是对的。证明不了，就重写。」

NPU调度器的RTL重写用了两周，验证用了一周，重新流片用了两周。五周，一天不多，一天不少。新批次的工程样片回来后的第一件事，不是上测试台，而是直接放进十八个测试舱里，跑最极端的工况组合。到今天，连续运转二十三天，零功能故障。

但章宸要的不是「零故障」，他要的是「可预测丶可验证丶可重复」的零故障。测试数据必须证明，在所有的工艺角丶温度丶电压组合下，晶片的行为都是确定的丶可预期的丶符合规范的。

监控台的右侧，李明哲的团队负责的可靠性长周期测试也在同步进行。两百一十六颗晶片被分成了九个批次，每个批次对应不同的测试条件组合。温度从零下四十度到零上一百二十五度，电压从标称值的百分之九十到百分之一百一十，湿度从百分之十到百分之九十。每个测试舱都在按照预设的曲线自动循环，温度每六小时升降一次，电压每十二小时跳变一次，模拟真实设备在使用寿命内可能经历的所有环境变化。

小芯的AI分析模块实时处理着十八个测试舱传来的数据流。每颗晶片有超过两百个测试点，每个测试点每秒钟产生一千个数据样本。总数据量每秒钟超过四千万个数据点，普通的数据分析系统根本处理不了。但小芯的神经网络加速器专门为这类任务优化过，可以在数据流中实时识别异常模式，比传统分析方法快一千倍。

章宸的终端震动了，是小芯推送的一条分析报告。

「天权4号可靠性测试第二十三天数据分析：两百一十六颗工程样片，累计运行四百九十二万小时等效时间，零功能故障。晶圆边缘晶片与中心晶片的微小差异持续存在，但差异幅度稳定，未随时间扩大。差异对晶片功能无影响，对长期可靠性的影响概率低于百万分之一。」

章宸看完报告，把终端递给旁边的李明哲。

「晶圆边缘和中心的差异，你打算怎么处理？」李明哲接过终端，扫了一眼报告。

「天权4号不处理。差异太小了，对功能和可靠性没有实际影响。但天权5号的架构优化里，要把这个差异考虑进去。封装团队已经在和郑教授的联合实验室做多尺度仿真了，目标是找到差异的物理根源，然后在天权5的设计里从根源上消除。」

「也就是说，天权4号的改良，不涉及晶圆差异的问题？」

「不涉及。天权4号的首轮工程改良，聚焦三个问题——NPU调度器的RTL重写验证丶功耗动态调整算法的优化丶以及晶片间一致性的增强。」

章宸转身走向验证大厅的另一侧，那里有一排工作站，工程师们正在做功耗测试。他指着一台示波器上的波形。

「NPU调度器的问题解决后，我们顺便优化了动态电压频率调整的算法。之前的算法是全局的——所有核心同升同降。现在改成了每核心独立的DVFS，每个核心可以根据自己的负载独立调整电压和频率。这个优化把天权4号在典型应用场景下的功耗降低了百分之十二，峰值性能提升了百分之八。」

李明哲看着示波器上的波形，每个核心的电压曲线都不一样，有的在高频运行，有的在低频待机，有的在中间状态快速切换。整个波形看起来像一座繁忙城市的天际线，高低错落，但整体平稳。

「晶片间一致性增强呢？」李明哲问。

章宸带他走到另一台测试设备前，屏幕上显示着十颗晶片的测试数据对比。

「之前我们发现，不同晶片之间有一些微小的性能差异——同样的测试向量，有的晶片跑得快一点，有的慢一点，差距在百分之一到百分之三之间。这个差异对终端用户来说感觉不到，但对伺服器和数据中心的应用来说，百分之一的差异就意味着机群需要做额外的负载均衡和性能补偿。」

「我们的解决方案是——在生产测试阶段，对每颗晶片做性能分级。分成金丶银丶铜三个等级，每个等级内的晶片性能差异控制在百分之零点五以内。客户可以根据自己的应用需求选择合适等级的晶片。对性能一致性要求高的伺服器客户，可以只买金级晶片，价格贵百分之十五。对性能一致性要求不高的消费电子客户，可以买银级或铜级，性价比更高。」

李明哲点了点头。「这不只是技术方案，也是商业模式。」

「对。陈醒说这叫『精细化定价』——不是一刀切地卖晶片，而是根据晶片的真实性能做分级，让客户为恰好需要的性能付费，不为用不到的性能买单。」

上午九点，首轮工程改良评审会正式开始。

会议室在验证大厅的二楼，一面墙是玻璃，可以俯瞰整个验证大厅。章宸坐在长桌的一端，两侧是晶片团队的骨干工程师，以及从合城赶来的老韩和苏黛。陈醒通过视频参加会议，屏幕投影在墙上的大屏幕上。

章宸打开终端，把评审材料投在大屏幕上。

「天权4号首轮工程改良，三个目标。第一，NPU调度器RTL重写后的功能验证。第二，动态电压频率调整算法的功耗优化验证。第三，晶片间一致性增强方案的有效性验证。」

他翻到第一页，是一张NPU调度器的状态机图。

「NPU调度器的RTL重写，我们把仲裁逻辑从优先级固定改成了轮询加权重的混合模式。每个核心的请求都有一个权重计数器，被服务过的核心权重降低，长时间未被服务的核心权重升高。这种模式从根本上消除了优先级反转的可能性，同时保证了高优先级任务的实时性。」

「验证团队做了三百万个随机测试向量，覆盖了所有可能的时序组合。另外还做了针对性的一百个边界条件测试，专门模拟最极端的竞争场景。全部通过。功耗和面积的影响——功耗增加了百分之零点三，面积增加了百分之零点五，在可接受范围内。」

台下有人提问：「轮询加权重的混合模式，延迟的确定性怎么样？最坏情况下的响应时间是多少？」

章宸调出了一张延迟分布图。

「旧调度器的最坏情况响应时间是十二个时钟周期，平均三个周期。新调度器的最坏情况响应时间是八个周期，平均四个周期。最坏情况变好了，平均情况变差了一点。但对NPU的实际工作负载来说，四个周期和三个周期的差别可以忽略。更重要的是——新调度器的响应时间是可预测的，有确定的上界。旧调度器理论上存在无限期阻塞的可能，虽然概率极低。」

提问的工程师点了点头，坐下了。

评审的第二部分，是功耗优化。

负责功耗优化的工程师叫小谭，三十出头，是章宸从一家晶片设计公司挖来的。他走到屏幕前，调出了功耗测试的对比数据。

「旧版DVFS算法，全局同升同降，典型应用场景的平均功耗是三点二瓦。新版每核心独立DVFS，平均功耗降到二点八瓦，降低了百分之十二点五。峰值性能从每秒四万亿次运算提升到四点三二万亿次，提升了百分之八。」

「降功耗的核心是两点——第一，细粒度的负载检测。旧版算法每毫秒检测一次负载，新版每零点一毫秒检测一次，响应更快。第二，预测性的频率调整。小芯的AI模块可以根据应用的行为模式预测未来的负载变化，提前调整频率，避免频繁的电压跳变。频繁跳变的功耗损耗很大，预测性调整可以避免百分之六十的无用跳变。」

陈醒在视频里问了一个问题：「每核心独立DVFS，对电源管理晶片的要求是不是更高了？」

小谭调出了电源管理晶片的规格对比。