破解AIDC“三不”困境,华为RAS理念重塑智算底座 99xcs.com

人工智能的浪潮不再只是屏幕背后的代码跃动,而是以惊人的电力消耗、高热密度与极限交付周期,倒逼数据中心产业进行一次彻底的自我革命。

当大模型训练集群动辄将单机柜功率推高至30kW、50kW甚至迈向200kW;当数据中心18个月的建设周期被压缩至6个月;当电力资源从成本项升级为战略瓶颈。智算时代的基础设施正面临一场关乎生存的极限压力测试。

近日,华为中国数字能源数据中心能源拓展部部长石忆在沟通中,系统阐述了华为的思考与答案。他指出,AI数据中心正面临“不安全、不敏捷、不绿色”挑战,而华为提出的RAS理念——安全可靠(Reliable)、弹性敏捷(Agile)、绿色低碳(Sustainable),正为系统化解这一系列难题提供了思路。

久久小常识(www.99xcs.com)™

华为中国数字能源数据中心能源拓展部部长 石忆

“三不”困境:AIDC增长的繁荣与阵痛

“过去两年半,我们见证了AI的爆发,但也必须清醒地看到繁荣背后的基础设施挑战。”石忆开门见山地指出。

首当其冲的是“不安全”。一个10MW的智算中心,其承载的算力是传统通用数据中心的百倍以上。这意味着故障的影响半径被急剧放大,而故障响应时间窗口却从过去的2分钟被压缩至30秒甚至更短,这已远超人力运维的极限。

其次是“不敏捷”。“在AI领域,赢家通吃。谁先上线,谁就抢占先机。”石忆透露,6-12个月上线已成为互联网云厂商的普遍需求,而传统数据中心18-24个月的建设周期,完全无法匹配AI业务的狂奔速度。

更深层次的挑战来自于技术与资源的错配。芯片迭代已从摩尔时代的两年一代加速至后摩尔时代的一年一代,服务器功率迅猛攀升。然而,一代基础设施通常需要支撑三代IT设备的生命周期,传统固化架构已难以为继。

与此同时,资源约束正演变为硬性瓶颈,也就是“不绿色”。根据国际能源署(IEA)数据,2024年全球数据中心总耗电量已达4150亿度,预计到2030年将飙升至一万亿度。有人说,算力的终点是电力,但电力已从成本因素,转变为决定算力规模上限的战略资源。

RAS理念:系统性破局,而非单点优化

面对如此复杂的困境,华为的应对之策不是简单的产品升级,而是一套贯穿顶层设计到落地实施的系统性理念——RAS(安全可靠 (Reliability)、弹性敏捷 (Agility) 、绿色低碳 (Sustainability))。

安全可靠是“1”,其他都是“0”。在我们的理念里,安全可靠是那个不可动摇的“1”,其他所有属性都是后面的“0”。”石忆强调,华为追求的是全生命周期的系统性可靠。这具体体现在四个层面:

产品可靠:通过从设计、来料、生产到测试的全流程把控,华为UPS可靠性可达业界的2倍,智能锂电可靠性可达业界4倍,下一代锂电目标更是10倍于业界。

架构可靠:华为倡导最小故障域的分布式架构和隔离式备电。后者通过将锂电备电系统拉远部署,在享受锂电能量密度高、寿命长优势的同时,从根本上规避了其潜在安全风险对核心IT设备的波及,有效防止次生灾害。

智能管理:“我们建设DC服务于AI,也要用AI来保障DC安全。”石忆介绍,华为通过上电即上云的主动监测,结合AI算法,可对锂电实现Pack级故障预测,识别率和准确率均达80%,防患于未然。

专业运维:华为在项目交付中引入AI核查,将现场图片和视频回传系统,自动识别交付质量,从源头杜绝隐患。

从“串行”到“并行”:弹性敏捷重构建设模式

为了应对极致的交付速度与IT快速迭代的需求,华为提出了弹性敏捷的“四化”方针:子系统解耦化、功能模块化、模块预制化、高密融合化。

其核心是将传统的工程变成标准产品来确保交付与最终应用的质量。石忆解释道,通过将供配电、制冷等子系统解耦,并进一步模块化,再将这些模块在工厂进行预制和测试,现场的工作就变成了简单的“搭积木”,这极大地减少了现场施工量和不确定性。

石忆以华为云(芜湖)数据中心为例,华为数字能源仅用3个月就完成了数据中心的建设交付。

绿色低碳:从责任到竞争力的核心转换

在吉瓦级电力需求面前,能效的微小提升都意味着巨大的经济价值。石忆生动的算了一笔账:一个500MW的数据中心,PUE降低0.1,每年节省的电费可能超过2亿元人民币。

数据中心是一个高耗能的产业,只有实现绿色低碳才能保障产业可持续发展。而华为的绿色实践围绕“四个高效”展开:

供电高效:如今,智算中心制冷系统从风冷走向液冷。过去,以风冷为主力的场景,CLF占比77%,温控效率是关键。未来液冷场景,PLF占比51%以上,供电效率成为关键,供电高效在AI DC的价值日益凸显。

石忆认为从单机到并机到系统都要高效。华为UPS效率高达97.5%,并机效率可达97.3%,采用S-ECO模式整体系统效率可高达99.1%。

制冷高效:随着智算时代液冷的普及,制冷能耗得到进一步降低,但风冷系统仍将继续存在,风冷和液冷系统走向融合化,冷源统一化,通过AI手段对制冷系统做系统级能效调优,进一步降低制冷能耗,提升制冷效率。

系统高效:打通L1层能源基础设施与L2层算力基础设施的信息流,让能源基础设施与算力基础设施协同,根据负载动态调节,实现让每一瓦特承载更多算力。

算电协同:通过绿电直供、数字化平台削峰填谷,既降低了碳排放和OPEX,也助力电网稳定,解决了绿电消纳问题。

全栈优势:华为的“隐藏实力”与生态底气

当被问及华为的独特优势时,石忆指出了其容易被外界忽略的全栈能力。

“华为是业界极少数同时具备从底层硬件到上层云服务、从业务咨询到产品与解决方案交付全栈能力的厂商。”这一优势带来了两个关键价值:

一是源头协同。在AI服务器规划初期,基础设施团队便深度参与,确保计算产品与供电、温控方案从诞生之初就完美匹配;二是云上验证。每一代新的AIDC产品都会在华为云上进行大规模部署验证,将运维一线的需求反向融入研发,使得华为的基础设施产品出生即成熟,内置了可靠性与便利性基因。

此外,华为顶尖的咨询设计团队已沉淀出21个AI数据中心标准参考设计,将全球大型数据中心的建设经验与对技术趋势的洞察,转化为客户手中兼具前瞻性与落地性的蓝图。

在RAS理念的落地实践方面,据石忆介绍,从国家气象局风云三号数据中心,到亚洲最大的单体智算中心,中国移动呼和浩特数据中心,再到华为自身全球最大的云数据中心,贵安数据中心(PUE低至1.12),RAS理念正在千行万业中落地生根。

在金融行业,上交所金桥数据中心D5楼通过部署华为iCooling@AI能效解决方案,年均PUE降低0.25,节能比例13%,年省电累计240 万度;在制造领域,赛力斯超级工厂数据中心凭借智能微模块,7天完成快速部署;在数字政府领域,东莞滨海湾新区采用支持50kW高密部署的智能微模块6.0,7天交付,快速支撑DeepSeek大模型应用。

笔者观察:主动定义未来,而非被动适应时代

笔者发现,华为对当前痛点的深刻洞察是一种面向未来的、主动的定义者姿态。在智算的洪流中,华为数字能源凭借RAS理念与全栈能力,正致力于将电力瓶颈转化为坚实底座,将技术挑战进阶为价值跳板,其目标清晰而坚定,为AI产业的澎湃发展,构建一个足够安全、极度敏捷、永续绿色的算力沃土。