《半月谈》评郑州模式(半月谈讲义) 99xcs.com

算力,如同AI时代的电力,其成本与可获得性,正决定着创新火花的亮度与广度。

——《半月谈》

AI大模型狂飙猛进之下,全球算力竞争日益激烈。对于芯片产业起步较晚、算力基建却增速迅猛的中国,AI计算生态仍显薄弱,而由此引发的算力资源闲置、应用效率低下等问题,成为国产AI创新的“拦路虎”,并严重制约着区域AI产业的谋篇布局。

今年2月初,郑州在国产大算力和大模型领域接连落子,因其开放协同的理念、普惠易用的模式以及面向需求侧的规模化落地能力,受到业界空前关注。《半月谈》发文指出,对于有志于在科创方面有所建树的地方政府而言,“郑州模式”正在打开一扇通向无限可能的大门。

当算力开始像“水电”一样流动

岁末年初,由千问“请客喝奶茶”引发的AI红包大战迅速蔓延。有人调侃称:“为了让大模型变得更好用,厂商正在斥巨资邀请全民调教自家AI产品。”

这非常符合AI技术逻辑。当用户使用频率越高、参数数量越多,模型理论上能够捕捉的数据特征和复杂模式就越丰富。这是通往“好用”的唯一途径。

当然,参数量直接决定了模型的计算复杂度和资源需求。参数越多也意味着训练所需的算力和存储空间就越大。这对于长期处于芯片制裁下的中国,是一个不小的考验。

近年来,为了满足AI技术创新带来的庞大算力需求,全国各地一座座智算中心拔地而起。据业内预测,若保持当前建设速度和政策支持力度,到2026年我国智算中心(投运、在建及规划)数量可能超过500个。

然而,与算力新基建提速一并带来的是严重的算力资源闲置——由于芯片计算路线分散、算力生态碎片化,近乎半数的计算中心存在“空转”现象。

更矛盾的是,受制于算力资源无法有效流转,低标准算力基础设施占比较多,很多高端场景需求缺口反而越来越大。这让在新基建投入真金白银的地方政府,一度陷入投资浪费的窘境。

2月5日,郑州依托国家超算互联网核心节点展开一次重要尝试。由中科曙光提供的三套开放架构的scaleX万卡超集群,在该节点完成规模化落地。据悉,该集群可兼容主流AI计算生态,支持多品牌加速卡,可为大规模智算场景提供高效普惠的算力服务。

并且,基于国家超算互联网平台,核心节点算力资源可实现跨区域、跨主体、跨架构流通,为不同用户提供“类京东、淘宝”的网购式体验。《半月谈》对此评价称,“郑州将稀缺、昂贵的尖端算力资源转变为普惠、易用的公共服务,可能会彻底改变我国AI的生态格局。”

过去,算力是一座座孤立的“电站”,有的负荷过重,有的闲置浪费。通过国家超算互联网,这些算力被连接成一张“智能电网”,可以根据全网需求智能调度到任何需要的地方。

“当算力开始像水电一样流动,当一座内陆城市也能成为全国AI创新的枢纽节点,中国人工智能创新的底层逻辑,才真正被改写。”《半月谈》笔者表示。

一场“大算力”与“大模型”的对话

在郑州的产业布局中,打造互联互通的“算力枢纽”只是第一步。面向当前最迫切的AI大模型算力应用问题,当地紧锣密鼓地召开了一场光合组织研讨会。

据悉,这场会议的主题即“国产万卡算力赋能大模型发展”。会上集中了国内头部大模型厂商与算力基础设施提供商等百家核心生态伙伴,旨在通过软硬件全栈技术攻关,走出一条国产“万卡大算力”与“万亿大模型”的协同发展路径。

彼时,业内猜测,这是对此前三套scaleX万卡超集群落地核心节点的一次重要回扣。前者解决了大算力建设供给和算力资源高效流通的问题,后者则聚焦于打通AI大模型计算场景“最后一公里”,将充沛的国产大算力真正转化为AI应用创新的强劲动力。

众所周知,训练一个万亿参数大模型通常需要数千张以上的高性能AI芯片,所需算力可能达到数百PFLOPS(每秒千万亿次浮点运算)。如GPT-3.5的训练使用了约1024张A100,耗时约3个月。而万亿参数模型的训练规模和时间可能更大,对于“大算力”的需求也更强烈。

并且,相较于训练环节需要连续运行数月甚至更长时间,大模型推理带来的是持续消耗型需求,企业的运营成本直接取决于其“能效比”。目前,优化推理算力的能效比,主要依赖于硬件设计、算法优化和系统调度等手段,在生态协同和联合调优方面尤有很大提升空间。

值得注意的是,在这场“大算力”与“大模型”的深度对话中,产业上下游达成了多项共识。比如,算力提供方、模型研发方与场景应用方将构建紧密协作机制,针对关键技术推动标准共识的建立,避免重复内耗,促进产业良性发展。

此外,各方将坚持以应用需求为导向,紧密串联起政策引导、算力、大模型、模型优化与场景应用等环节,打通标准建设、技术验证、产品测试、生态培育等协同设计与持续调优,构建自主可控、高效适配的完整技术栈,进而实现从“单点突破”到“系统领先”的根本性跨越。

从大算力筑基到大模型应用,一条完整的AI产业协同创新链在郑州率先浮出水面。

“郑州模式”背后的无限可能

对于一个内陆城市成为全国AI创新的枢纽节点,《半月谈》不吝溢美之词。“十几年前,郑州通过引进一个富士康带动了全省制造业的升级与进出口的飙升;如今,这个城市又在人工智能领域完成了一次创举。‘郑州模式’值得更多关注。”

正如笔者所说,中国有34个省级行政区,包括23个省、5个自治区、4个直辖市、2个特别行政区,14亿人口,仅靠一个郑州节点远远无法满足全国AI创新对算力的渴求。布局更多国家超算互联网节点,不是一道选择题,而是一道必答题。“郑州模式”也正为其他区域产业升级带来无限可能。

就在几天前,工业和信息化部正式发布了《关于组织开展国家算力互联互通节点建设工作的通知》,明确提出构建“1+M+N”国家算力互联互通节点体系,为算力网络建设开启全景版图。

在架构设计上,“1+M+N”体系将形成全国统筹、区域协同、行业适配的算力网络,国家枢纽节点承担跨区域调度功能,区域节点覆盖长三角、粤港澳等战略区域,行业节点则精准对接人工智能、智能制造等重点领域,实现算力需求的无死角覆盖。

在技术支撑上,国家要求所有节点必须建设算力标识管理、资源汇聚、安全监测等六大系统,为每一份算力赋予“数字身份证”,旨在彻底解决不同架构、不同品牌算力的兼容问题。

在运行规则上,政策强调统一标识、统一接口等机制,强制所有节点按国家级标准接入,确保算力“入网即入市”,为跨区域、跨行业调度扫清障碍。据工信部测算,随着该机制落地,全国整体算力利用率将从当前的52%提升至80%以上,相当于盘活近半数闲置算力。

种种政策举措印证了“郑州模式”布局。《半月谈》指出,“‘郑州模式’的最大价值或许在于,它提供了一种将宏大国家战略与地方产业升级相结合的新思路。”显然,这种新思路为地方政府有效参与AI计算产业升级,贡献了一个可借鉴参考,甚至复制落地的绝佳样板。

当地方区域纷纷登上这条快车道,全国算力资源池进一步激活,并与AI技术迭代紧密联动,必将有力推动全域全行业体系化跃迁。未来,我们改写的或许不仅仅是人工智能创新的底层逻辑,更是事关国家AI主权根基乃至综合国力走强向上的历史使命。