周明在中央研究院六号会议室的白色长桌上铺开了三份文件。第一份是天枢OS数据治理框架的现状描述——一份由郑工团队花了三周时间从全部接入天枢OS的系统中梳理出来的数据流拓扑图,图上密密麻麻标注着从产线传感器到临床标注终端到生态应用日志的每一个数据节点,总计超过六千个。第二份是联合检测验证工作组第二次技术磋商后发来的正式质询清单,其中第三条明确要求未来科技说明其内部数据治理规则的统一性和可审计性。第三份是李明哲从日内瓦发来的一份备忘录,标题只有五个字:「审计是护城河。」
「补天V1的发布证明了我们的设计工具链可以被外部验证,追光产线合规验收证明了制造端的透明化,天罡生态兼容标准第二版证明了生态规则制定的开放性。」周明把三份文件并排摆好,抬起头看向会议室里的每一个人,「但所有这些『可验证性』都建立在一个共同的底座上——数据。如果我们的数据治理规则本身不统一丶不透明丶经不起审计,那么底座一旦被证明有裂缝,上面盖的所有楼层都会晃动。」
坐在会议桌对面的郑工面前摆着一台笔记本电脑,屏幕上显示着天枢OS数据采集模块的架构图。他把架构图投到会议室的大屏幕上,用雷射笔圈出了六个不同颜色的数据域。红色的是制造域——追光产线的全部设备传感器数据丶工艺参数和良率记录。蓝色的是设计域——补天工具链的代码提交日志丶仿真结果和版图叠代记录。绿色的是医疗域——神农AI的心电波形原始数据丶标注记录和模型训练日志。黄色的是生态域——天罡OS的设备激活日志丶应用崩溃记录和街边店技师反馈数据。橙色的是金融域——产业扶持基金的评审记录丶资金流向和项目进展报告。紫色的是法务域——合规审计日志丶合同条款变更记录和跨境数据流动审批单。
「六个域,六种数据格式,六套采集协议,六个存储集群。」郑工的雷射笔在每个色块上停了一秒,「但如果你去问这六个域的数据治理规则分别是什么,答案是不一样的。制造域的数据保留周期是三十六个月,医疗域是二十四个月,生态域是十八个月。制造域的访问审批需要三级签字,医疗域需要二级,生态域只要一级。制造域的数据脱敏标准用的是国标,医疗域用的是欧陆医疗器械标准,生态域用的是天罡OS开发者协议里附带的数据处理条款——那个条款还是两年前法务团队一位实习生写的初稿。」
郑工说完后,会议室里沉默了几秒。秦教授最先打破了沉默。他面前放着一份神农AI临床验证流程的文档,是安德松教授访问合城后留下的那份推荐信的附件。「医疗域的数据治理规则之所以和制造域不一样,不是因为没人想统一,而是因为医疗数据的合规要求本身就和工业数据不在一个框架里。欧洲医疗器械标准对临床数据的存储期限要求是至少五年,而不是二十四个月。如果我们强行把医疗域的数据保留周期拉到和制造域一样,等于在欧陆合规审查中自断手脚。」
本书首发 台湾小说网超顺畅,??????????.??????任你读 ,提供给你无错章节,无乱序章节的阅读体验
「问题不在于六个域的规则不一样。」周明站起来走到屏幕前,用手指在六个色块之间画了一条虚线,「问题在于,这六套规则从来没有被整合成一套统一的元规则。什么是元规则?就是不论数据来自哪个域,所有数据都必须遵守的共同底线——比如,任何数据的采集都必须有明确的目的说明,任何数据的访问都必须留下不可篡改的审计日志,任何数据的跨境传输都必须经过独立合规官的批准,任何数据治理规则的修改都必须经过一个跨部门的治理委员会投票表决,投票记录对外公开。」
他在屏幕右侧空白处写下三行字,每一行字都像是一条法律条文那样简短有力。第一行:采集有目的,存储有期限,访问有记录。第二行:治理规则本身被治理——规则的制定丶修改和废止过程全程留痕,接受外部审计。第三行:数据主权归数据产生方所有,任何数据共享行为必须在可独立验证的授权框架内进行。
方程从新加坡通过视频接入,他在屏幕上的小窗口里听完周明的三条元规则后,把天罡生态兼容标准第二版起草时用过的「十四条起草原则」调出来放在旁边做参照。「兼容标准第二版的核心经验是——规则一旦不再由单一主体单方面定义,规则的权威性就会从制定者身上转移到规则本身。数据治理细则的制定可以沿用同样的联合技术委员会机制,在委员会里引入独立的外部委员参与投票。」
周明把这个建议记在了会议纪要里,同时加了一个更激进的条款——数据治理委员会中,外部委员的比例不低于三分之一,外部委员从星环科研奖励机制学术委员会丶联合检测验证工作组认可的独立审计机构和补天计划高校团队中遴选。这个比例设定意味着未来科技在任何涉及数据治理规则的修改中都不拥有绝对多数票。
林薇从中央研究院封闭开发区拨进视频时,正在天权6号的功耗仿真数据前做最后的收敛验证。她听完周明的提议后没有讨论外部委员的比例,而是直接切入了数据治理细则中最核心的一个技术难题——数据脱敏标准的跨域统一。「制造域的晶圆缺陷分布数据丶设计域的版图层数数据丶生态域的用户行为日志,三者的脱敏要求完全不一样。如果把制造域的数据脱敏标准强行套到生态域上,生态数据里的异常功耗触发条件——就是阿贡发现的那种——就会被脱敏算法当作『异常值』自动抹掉,而这些异常值恰恰是我们做质量改进最有价值的信号。」
郑工敲了几下键盘,屏幕上弹出一张表格。表格里列着六个数据域中每一种数据类型在脱敏处理中的最小颗粒度要求。制造域的晶圆缺陷坐标精度可以脱敏到五十微米而不影响工艺分析,设计域的版图数据需要脱敏到标准单元级别才能保护设计机密,生态域的用户设备型号必须保留完整而不能被泛化——因为阿贡发现的基带晶片功耗异常只有在特定设备型号和特定运营商频段组合下才会触发,一旦泛化就丢失了定位故障的全部线索。
「脱敏标准不能一刀切。」郑工说,「但脱敏标准的制定过程可以一刀切——不论哪个域,脱敏规则的制定丶审批丶修改和生效日期都必须走同一套治理流程,每一条脱敏规则的背后都必须附着明确的业务理由和风险评估,且全部留痕。」
周明在会议纪要上写下数据治理细则的第一条核心条款草案:「数据脱敏标准由各数据域负责人根据业务需求提出,经数据治理委员会审议批准后生效。每一条脱敏标准均需附带业务必要性说明和风险评估报告,审议过程保留完整记录,记录对外公开。」
讨论进入数据访问权限分级时,秦教授提出了一个让在场所有人都不得不正视的问题。神农AI的临床数据目前采用的是二级审批——数据使用者提交申请,经秦教授和医院伦理委员会两位委员共同批准后即可获取脱敏后的数据。但安德松教授在访问时无意中发现,神农AI的模型训练日志——不是原始临床数据,而是模型在训练过程中的中间参数更新记录——同样被纳入了二级审批的范围。这个设计导致赵静团队在做预调度模型与神农AI的联合调优时,每一次调参都要等至少两个工作日的审批周期。
「临床原始数据的严格审批是对的。」秦教授说,「但模型训练日志的安全级别不应该和原始临床数据一样。把两者的审批门槛拉平,表面上是提高了安全标准,实际上是降低了研发效率——而且这种降低不会换来任何实质性的安全保障,因为模型训练日志里根本没有可追溯的个人信息。」
周明把这个问题放大到了全部六个数据域。追光产线的设备传感器数据丶补天工具链的代码提交日志丶天罡OS的应用崩溃记录——这些数据的敏感级别各不相同,但目前的访问审批规则大多是在各自为政的状态下临时设定的,有的过于宽松,有的过于严格,几乎没有跨域的一致性。
他提出的解决方案是在数据治理细则中建立一套三级数据访问权限体系。一级是公开数据——任何内部员工和签署了数据使用协议的合作夥伴均可直接访问,包括设备稼动率汇总统计丶天罡OS装机量公开数据丶补天工具链的公开文档和基础模块代码。二级是受限数据——需经数据域负责人审批后方可访问,包括产线工艺参数的详细记录丶晶片设计版图的非核心区域数据丶生态应用的非敏感用户行为统计。三级是受控数据——需经数据治理委员会全票批准后方可访问,包括晶片设计版图的核心电路区域数据丶神农AI的原始临床数据丶用户个人身份关联数据和产业链供应商的核心工艺参数。
这套三级体系的命名直接沿用了天罡Edge接口安全分级的框架——不是巧合,是周明刻意为之。他在会议桌上摊开了天罡Edge接口三级安全分级体系的文档,指着上面「一级公开丶二级受限丶三级受控」的分类标签说:「天罡Edge的安全分级已经在联合检测验证工作组那里作为参考基准案例。数据治理细则沿用同一套分级逻辑,可以最大限度减少外部审计的理解成本——审计方不需要重新学一套新的分类体系,只需要确认同一套逻辑是否被一致地应用到了数据治理领域。」