天机云数据中心位于芯谷以北三十公里的一片丘陵地带,占地三百亩,建筑面积八万平方米。四栋数据中心大楼呈田字形排列,每栋楼里有一万两千个伺服器机柜,总计算能力超过每秒两百亿亿次浮点运算。这里是悟道算力平台的核心枢纽,也是未来科技在云计算领域最重的资产。
许承站在数据中心的中控室里,面前是一面由六十四块屏幕组成的电视墙,实时显示着整个数据中心的运行状态。温度丶湿度丶电力消耗丶网络流量丶算力利用率,每一个数字都在跳动。当前整体算力利用率是百分之七十一,比三个月前的百分之六十二提升了九个百分点。这个提升来自于悟道算力平台负载调优的三项措施——分区调度丶拥塞控制调优丶预测模型升级。许承的团队用了六周时间,把这些措施全部落地,把算力利用率从六十二拉到了七十一,距离百分之七十八的目标还差七个百分点。
但今天,许承关心的不是利用率,而是另一件事——悟道云端服务的企业级合约。
悟道算力平台上线两年多以来,主要服务的是未来科技内部的业务——天枢生态的后端丶小芯的云端模型训练丶天权晶片的仿真验证丶追光设备的工艺仿真。外部客户也有,但大多是中小企业和独立开发者,用的是公有云的标准服务,按量付费,没有长期合约。企业级客户——那些需要定制化服务丶签署长期合约丶对数据安全和合规性有严格要求的大型企业——一直是悟道的短板。
这个短板必须补上。陈醒在两个月前的集团战略会上明确说过:「悟道算力不能只做内部平台,必须走出去。企业级市场是算力需求最大的市场,也是利润最高的市场。不拿下这个市场,悟道就永远是未来科技的成本中心,永远成不了利润中心。」
许承接下了这个任务。两个月来,他的团队拜访了二十多家潜在企业客户,涵盖了金融丶制造丶科研丶医疗丶能源五个行业。今天,有三家客户派代表来到天机云数据中心,进行最后的商务谈判和合约签署。
第一家企业是华夏的一家大型国有银行,资产规模超过十万亿,在全国有三万多个网点。他们的代表是一个四十多岁的技术总监,姓刘,穿着一身深灰色的西装,说话语速很慢,每句话都经过深思熟虑。
【记住本站域名 台湾小说网藏书广,??t??w??k?a??n.??c??o??m 随时看 】
「许总,我们银行的AI算力需求主要来自三个场景——风控模型训练丶反欺诈实时计算丶以及智能客服的深度学习。目前这些算力都跑在旧秩序的公有云上,每年的费用超过两亿。但我们一直在寻找替代方案,原因有两个——第一,数据安全。银行的数据不能出境,旧秩序的公有云虽然在国内有节点,但数据回传的链路和审计权限不在我们手里。第二,成本。旧秩序的算力定价每年都在涨,涨幅超过百分之十五,我们受不了。」
许承点了点头。这两个原因,他在过去两个月里听过无数次了。
「刘总,悟道算力平台的优势恰恰在这两点。第一,数据安全。悟道的所有数据节点都在华夏境内,物理上不可出境。我们提供『数据驻留保证』——客户的任何数据都不会离开客户指定的地理区域,这个保证写进合同,违约赔偿是年服务费的十倍。第二,成本。悟道的算力定价比旧秩序低百分之三十,而且未来三年不涨价。我们可以签三年期的价格锁定协议。」
刘总监在笔记本上记了几笔,然后问了一个更具体的问题。
「你们的算力性能和旧秩序比怎么样?我们有一个风控模型,在旧秩序的GPU集群上跑一次需要四个小时。如果切换到悟道,时间会更长还是更短?」
许承调出了一张性能对比表,投在会议室的大屏幕上。
「悟道算力平台有两种算力形态——GPU集群和天权AI加速卡集群。GPU集群用的是国产的加速卡,性能大约是旧秩序高端卡的百分之八十。天权AI加速卡集群用的是我们自研的悟道晶片,性能比旧秩序高端卡高百分之三十,但只支持天枢生态的软体栈。」
「你们的模型是基于旧秩序框架开发的,移植到天权加速卡上需要做一些适配。我们的工程师可以帮你们做移植,周期大约四到六周。移植完成后,同样的模型,在悟道上的训练时间可以缩短到三小时以内。」
刘总监沉默了几秒。「四到六周的移植周期,我们可以接受。但移植后的稳定性和正确性怎么保证?」
许承翻到下一页,是一张测试验证流程图。
「移植完成后,我们会用你们的测试数据集做对比验证。输出结果的误差控制在百万分之一以内,才算通过。验证通过后,移植后的模型会在悟道上跑一个月的并行测试——同时跑旧秩序和悟道,对比每次的输出结果。一个月零误差,才能上线生产。」
刘总监合上了笔记本。「许总,你们的方案比我预想的成熟。我今天是带着签约授权来的,如果我们能在数据驻留保证和价格锁定条款上达成一致,今天就可以签。」
谈判进行了两个小时。最后,双方在数据驻留的具体定义丶价格锁定的期限和范围丶服务等级协议的响应时间丶违约赔偿的计算方式等细节上达成了共识。银行方面承诺首年采购五千万元的算力服务,主要用于风控模型的训练和推理。合同期三年,总金额一亿五千万元。
这是悟道算力平台第一个企业级合约,也是金额最大的一个。
送走银行的代表后,第二家客户进入了会议室。这是一家华夏头部的新能源汽车制造商,年产量超过一百万辆,正在全力推进自动驾驶技术的研发。他们的代表是一个三十出头的技术负责人,姓马,穿着公司文化衫,牛仔裤,运动鞋,看起来不像来签约的,倒像来参观的。
「许总,我们的需求很简单——算力,大量的算力。我们的自动驾驶团队每天要处理超过两百万公里的路测数据,用来训练感知丶决策丶控制三个大模型。目前我们在旧秩序的云上跑了超过一万张GPU卡,每个月的费用超过三千万。这个成本太高了,我们需要降本。」
许承直接亮出了底牌。
「悟道算力平台可以给你提供两种方案。方案一,用我们的天权AI加速卡集群,每张卡的算力相当于旧秩序高端卡的一点三倍,价格只有它的百分之六十。同样一万张卡的算力,悟道的成本是旧秩序的百分之四十六。每个月从三千万降到一千四百万,一年省近两亿。」
「方案二,混合方案。你们的核心模型跑在天权加速卡上,边缘任务跑在国产GPU上。这个方案的性价比更高,但复杂度也更高,需要你们的算法工程师做一些适配工作。」
马技术负责人听完,没有立刻表态,而是问了一个技术深度的问题。
「天权AI加速卡的软体栈,支持分布式训练吗?我们的模型参数规模已经超过一千亿,单卡放不下,需要多卡并行。」
许承调出了悟道算力平台的分布式训练架构图。
「支持。悟道算力平台内置了分布式训练框架,支持数据并行丶模型并行丶流水线并行三种模式。一千亿参数的模型,我们用两百五十六张天权加速卡,训练时间可以压缩到两周以内。这个性能,和旧秩序的最优方案持平。」
「另外,我们还有一个独有优势——天权加速卡之间的互联带宽是自研的,每卡三百二十吉字节每秒,比旧秩序的互联快百分之四十。大规模分布式训练的时候,通信瓶颈是我们的优势。」
马技术负责人的眼睛亮了一下。「互联带宽快百分之四十,这个数据是真的吗?能做现场演示吗?」
许承笑了笑。「能。我们去实验室,现场跑一个分布式训练的测试给你们看。」
一行人走进数据中心二楼的实验室,那里有一个小规模的天权加速卡集群,六十四张卡,通过自研的网际网路连接。许承的团队现场启动了一个标准的计算机视觉模型训练,分别在悟道和旧秩序的同等规模集群上跑。十分钟后,结果出来了——悟道的训练速度比旧秩序快了百分之三十七,通信开销低了百分之四十二。
马技术负责人看着屏幕上的数据,沉默了很久。
「许总,我要给公司打个电话。」
他走出实验室,在走廊里打了二十分钟的电话。回来的时候,脸上带着笑容。
「公司批了。首年采购八千万元的算力服务,主要用于自动驾驶模型的训练。合同期两年,总金额一亿六千万。但我们有一个条件——你们要派一个技术团队常驻我们公司,协助我们的算法工程师完成模型移植。周期不超过八周。」
许承点头。「可以。天机云的技术支持团队有三十个人,我可以抽调五个人常驻你们公司。八周内完成移植,逾期的话,合同金额打九折。」
马技术负责人伸出手。「成交。」
第二份合约签完,已经是下午四点。第三家客户是一家科研机构——华夏科学院的一个国家级实验室,研究方向是气候模拟和气象预测。他们的代表是一个五十多岁的教授,姓吴,头发花白,戴着一副厚厚的眼镜,手里拿着一台老旧的笔记本电脑。
「许总,我们的需求比较特殊。气候模拟需要的是双精度浮点算力,不是AI训练用的半精度或单精度。天权加速卡的双精度性能怎么样?」