用缓存和预加载对冲,用户那边感知不到。训练速度差40%,可以把非紧急的训练任务挪到夜间跑,白天只保留推理和在线服务。
异构计算。
上辈子2022年以后,所有被制裁的中国科技公司都在做这件事。用不同架构的芯片混合部署,用软件层的调度算法弥补硬件层的性能差距。不完美,很笨重,调度代码写起来想骂人。但能跑。
关键不是跑多快,是能不能跑。
用户不能感知到卡顿。企业核心业务不能受影响。微光协同的视频会议不能掉帧,信用购的风控模型不能延迟出结果,AbySS的数据查询不能超时。
这三条守住了,61%就够了。
守不住,100%也不够。
他在脑子里过了一遍微光的业务优先级。第一梯队:信用购风控+AbySS实时查询+协同视频会议,这三个对延迟最敏感,必须用最好的卡。第二梯队:云仓调度+企业服务后台+AI训练任务,可以容忍一定程度的降速。第三梯队:日志分析、数据备份、离线任务,完全可以跑在国产卡上。
分三层切,从第三梯队开始换,第一梯队最后换。进口库存优先保第一梯队。
这个方案不完美。但能跑。
"良率的问题呢。"他问。
"故障率高意味着要多备冗余机器。我算了一下,如果要保证跟进口芯片同样的服务可用性,冗余率要从现在的15%提到35%。机器多了,电费多了,机房面积也得扩。"
"钱的事找沈南。"
老周张了一下嘴,又闭上了。
他大概想说"不只是钱的问题"。冗余率从15%提到35%意味着机房要扩容,意味着运维团队要加人,意味着整个基础设施的架构要重新规划。这不是加钱就能解决的,是整个技术底座要翻一遍。
但他没说出来。
因为他知道林彻听得懂"冗余率提到35%"这句话背后有多少东西。
林彻看着他。
老周的眼睛有点红,跟前几天沈南来汇报的时候一样,但原因不同。沈南是算完数字之后哭的,老周是一个周末没怎么睡。他的平板上除了那封断供邮件,还有至少二十个浏览器标签页开着,都是国产芯片的技术文档和评测数据。
他周末把能找到的资料全翻了一遍。
来之前已经有方案了。
只是方案不好看。
"61%够不够跑全套?"林
本章未完,请点击下一页继续阅读!