
从“芯”到“柜”,塔能全栈液冷解决方案详解
一、散热痛点升级:芯片到机柜的全链路温控难题
随着AI大模型以及超算等算力密集型业务的爆发式增长,算力中心正遭遇“芯片高热流加上机柜高密度”这样的双重散热难题,传统的分散式冷却方案已经无法契合全链路温控的需求:
• 芯片级痛点:高功耗器件定点散热压力:像 GPU、CPU 等核心器件,其功耗从原本的 300W 急剧上升至 600W 以上,局部热流密度是突破了 500W/cm²,在这种情况下,传统的风冷方式以及普通的液冷方式,都很难达成精准降温的效果,容易出现芯片因为过热而导致降频的情况,还会使芯片的使用寿命缩短等问题出现。
• 机柜级痛点:高密度集群整体散热失衡:单机柜功率达到了20至100kW,传统冷却方案容易致使机柜内冷热气流混合在一起,出现局部热点聚集的现象,使得整机柜散热效率变得低下,PUE一直处于较高水平。
• 链路级痛点:分散方案协同性差:具体表现为芯片冷却与机柜散热彼此相互割裂,缺少统一的调控措施,这种情况会引发两种不良后果,一是出现“芯片过冷 + 机柜过热”的资源浪费现象,二是产生“芯片过热 + 机柜过冷”的安全隐患,使得全链路的能效难以实现优化。
• 智能级痛点:动态负载适配不足:算力负载会随着业务出现较为剧烈的波动情况,例如在AI训练过程中会出现算力峰值与低谷的现象,传统的冷却方案在面对这种情况时响应较为迟缓,不可实时地与负载变化相匹配,导致能源浪费或者散热不足的情况发生。
在这样的背景状况之下,塔能科技推出从 “芯” 到 “柜” 的全栈液冷解决方案,
借助芯片级冷板和机柜级背板的深度协同配合,再搭配智能化控制系统,达成全链路精准温控效果,破解高密算力散热难题。
二、核心架构:芯片级 + 机柜级的全栈协同设计
塔能全栈液冷方案围绕“精准散热、协同高效、智能调控”这一核心要点,搭建起了“芯片定点冷却 - 机柜整体散热 - 系统智能调控”这样的三级架构体系。
实现从核心器件到整机柜的全链路温度管控:
1. 芯片级冷板:600W + 高功耗精准破局
面对CPU、GPU等核心器件呈现出的高热流密度需求,塔能开展航天级微通道冷板的研发工作,达成定点高效散热的效果。
• 航天级微通道设计:冷板内部集成了 50 至 100μm 的超细流道,运用了航天热控领域的仿生分形结构,可把冷却液精确地分配到芯片发热的核心区域,其热交换面积相比传统冷板提高了 60%,散热效率达到了突破 1000W/℃的水平,可轻松适配 600W 及以上的高功耗器件。
• 零距离导热接触:冷板采用航天级导热界面材料实现零距离导热接触,其与芯片表面贴合度高达99.5%,导热热阻低至0.01℃・in²/W,可快速地带走芯片产生的热量,把核心器件的温度稳定地控制在60℃以下,相比传统方案降低了15 - 20℃。
• 高可靠密封工艺:参考航天装备密封技术,冷板运用双重密封结构,使得漏液率无限接近于零,其适配市场主流的CPU、GPU封装规格,可支持热插拔更换,在不改动主板设计的情况下,兼容性超过99%。
• 相变强化换热:冷板内部放置的是航天级相变工质,借助“吸热 - 相变 - 放热”这样的循环流程,依靠潜热交换来提高散热成效,当芯片功耗出现突变情况时,像是从300W急剧上升到600W,它可迅速对温度波动起到缓冲作用,防止芯片出现降频现象。
2. 机柜级背板:自然冷却融合的整体散热
在芯片级冷板的基础上,塔能机柜级液冷背板
实现将整机柜产生的热量进行高效导出并与自然冷却实现融合的目标,构建起一个完整的全机柜散热闭环体系:
• 全机柜覆盖式散热:背板采用一体化设计形式,可覆盖机柜内所有服务器的散热面,借助分布式流道把各服务器的热量集中导出,以此避免机柜内冷热气流混合的情况出现,使得整机柜散热均匀性得到提升,提升幅度达到40%,并且没有热点聚集的现象发生。
• 自然冷却深度集成:即背板系统与室外自然冷源实现联动,当室外温度低于15℃时,系统会自动切换到自然冷却模式,借助空气 - 液体热交换的方式为冷却液降温,此时无需启动制冷机组,该系统全年自然冷却运行时间可达150 - 250天,这会因地域不同而有所差异,同时机柜级能耗可降低60%。
• 轻量化紧凑设计:其背板厚度仅仅只有80mm,以嵌入式的方式安装在机柜的后部位置,不会占用机房的核心空间,单机柜所占据的面积维持在0.8 - 1.0㎡之间,相较于传统的冷却方案可节省30%的空间,它还支持600mm、800mm、1000mm等主流机柜宽度,可适配新建以及改造场景。
• 冗余安全设计:背板系统配备双路冷却液循环,当单路出现故障时可自动切换到备用回路,以此保证整机柜散热不会中断,其管路选用航天级耐腐蚀材料,压力测试标准是行业标准的两倍,可承受长期运行时产生的压力。
3. 系统级协同:芯片与机柜的散热联动
塔能全栈方案借助“冷板 - 背板”之间流体与控制的联动方式,实现了全链路散热的优化效果。
• 流体联动:芯片冷板流出的冷却液会直接进入机柜背板的分布式流道,借助芯片产生的余热来预热冷却液,提高背板与自然冷源之间的换热效率,使得全系统能耗降低了15%。
• 温度联动:冷板聚焦芯片 “精准降温”(60℃以下),
• 背板承担着机柜整体控温的职责,机房环境温度设定在24至28℃,其作用在于形成芯片与机柜之间的温度梯度优化,以此防止能源出现浪费情况。
• 负载联动:在芯片功耗出现提升的情况下,冷板流量会自动实现增加,并且背板散热功率也会同步进行上调,以此来保证芯片降温可与机柜散热达成协同响应,不会产生滞后的情况。
三、智能核心:软件定义的全栈散热调控
塔能全栈液冷方案切实贯彻 “软件定义硬件” 理念,配备物联网智控平台,达成从芯片直至机柜的智能化精确调控,与 “好节能,塔能物联网精准节能” 的价值主张高度契合:
1. 三级智能温控,精准匹配负载变化
• 芯片级精准调控:借助于部署在冷板上的航天级温度传感器,对CPU以及GPU的温度展开实时监测,再凭借AI算法动态调节冷板冷却液流量,达成“一芯一策”的精准温控效果,防止芯片出现过冷或者过热的情况。
• 机柜级全局优化:依据机柜内多个位置监测到的温度数据,智能化地分配背板各个区域的冷却液流量,以此平衡不同服务器的散热需求,最终做到将整机柜的温度波动控制在正负2℃的范围之内。
• 系统级协同调度:结合算力负载预测,此预测是基于历史数据以及业务规划来开展的,凭借这种方式可提前对冷板与背板的运行参数作出调整,在算力峰值到来之前预设好最佳散热状态,最终使得响应延迟低于1秒。
2. 全生命周期智能运维
• 远程监控与诊断:支持在电脑端以及移动端实时查看芯片温度、冷板流量、背板散热效率、PUE等核心指标,生成可视化数据报表,AI算法可以自动识别异常数据,像是芯片温度突然升高、背板流量出现异常等情况,可提前72小时发出预警并且推送解决方案。
• 能耗优化与追溯:可自动生成按小时、按月统计的能耗报告,这些报告可以清晰地呈现出芯片冷板、机柜背板所消耗的能量在总能耗中所占的比例,同时也能呈现出自然冷却方式对于节能所做出的贡献,依据数据驱动的方式持续对散热策略进行优化,经过这样的优化后,全年的能耗可再次降低10%至15%。
• 无人化运维支持:对于拥有千机架的算力中心而言,仅需二至三人就能完成日常的运维工作,其可支持远程调试冷板以及背板的参数,还可进行故障复位等相关操作,如此一来,人力成本降低了百分之七十,达成了“让物联运维更为简捷且更为节能”的目标。
3. 弹性扩容与技术迭代
• 硬件扩容兼容:智控平台可支持冷板以及背板模块实现无缝扩容,当新增服务器或者高功耗芯片的时候,并不需要对控制系统进行重新构建,只需要接入新的模块,便可以自动识别并且分配散热资源。
• 算法在线升级:平台有支持远程升级AI温控算法的能力,可适配未来功耗更高的芯片以及更为复杂的算力负载场景,在无需更换硬件的情况下,将系统的生命周期延长至15年以上。
四、核心优势:全栈方案的能效与价值突破
塔能全栈液冷解决方案借助对“芯片 - 机柜 - 系统”全链路的优化,于能效、可靠性以及适配性等方面构建起核心优势。
对比维度
传统分散式冷却方案
塔能全栈液冷方案
高功耗适配
≤400W 芯片
≤600W + 芯片,支持未来更高功耗升级
整机柜 PUE
1.3-1.5
1.1-1.2(北方低至 1.05)
散热均匀性
机柜内温度波动 ±5℃
机柜内温度波动 ±2℃
自然冷却利用率
≤30%
≥50%(地域差异)
运维人力成本
千机架需 8-10 人
千机架仅需 2-3 人
故障响应速度
分钟级
秒级,提前 72 小时预警
• 极致节能:采用全栈协同与自然冷却融合的方式,对于千机架算力中心而言,一年可节省超过3000万元的电费,投资回报周期在2至3年。
• 超高可靠:采用航天级设计并配备冗余配置,系统平均无故障运行时间超过12万小时,芯片发生故障的概率降低了60%。
• 全场景适配:可支持功率范围在20千瓦至100千瓦每机柜的高密度场景,可以适配新建的数据中心,也可适配存量机房的改造工作,并且兼容市场上主流的服务器以及芯片品牌。
• 政策契合:当PUE≤1.2时,可完全符合绿色数据中心一级能效的要求,这种情况下可以申报国家以及地方的专项补贴,其中单项目补贴金额可达到数百万元之多。
五、落地场景:覆盖多元算力中心需求
塔能全栈液冷方案已在多个核心场景落地,适配不同算力需求:
1. AI 智算中心
• 核心需求:拥有600W以上的GPU集群,要解决其散热问题,达成低PUE的目标,并且可智能适配训练负载的波动情况。
• 方案价值:芯片冷板可精确控制 GPU 温度,使其保持在 60℃以下,避免出现降频情况,背板系统与自然冷却实现了融合,使得 PUE 稳定在大约 1.1 的水平,智控平台可适配训练负载的波动,节能效果得到了 20%的提升。
2. 超算中心
• 核心需求:在于超高密机柜的散热问题,以及全系统的可靠性保障,以及余热回收利用方面。
• 方案价值:该方案有多方面价值,其一,借助全栈协同可达成整机柜的均匀散热效果,不会出现热点区域,其二,采用双路冗余设计可保障设备实现7×24小时不间断运行,其三,芯片产生的余热可借助背板系统进行回收利用,用于园区供暖或者提供生活热水,每年可节省超过500万元的供暖费用。
3. 存量机房改造
• 核心需求:不停机改造、提升算力密度、PUE 达标;
• 方案价值:采用插拔式冷板与背板设计,可在2至3个月的时间内完成改造工作,并且保证业务不会出现中断的情况,改造完成之后,算力密度可从原本的10kW提升至20至30kW,而PUE则会从1.5至1.8降低至1.1至1.2。
4. 边缘计算节点
• 核心需求:紧凑设计、低功耗运行、远程运维;
• 方案价值:采用迷你型冷板与背板集成设计,其占地面积仅为 0.5㎡,自然冷却在整体冷却方式中占比超过 60%,PUE 低至 1.25,有支持远程智能运维的能力,无需现场进行值守。
六、适用目标群体与核心价值主张
适用目标群体:
• AI 智算中心、超算中心项目负责人、技术总监;
• 存量数据中心运维的负责人以及节能管理总监。
• 云厂商、互联网企业的高密度机房建设团队;
• 关注双碳目标与 ESG 评级的企业决策者、项目投资方;
• 边缘计算项目运营商;
• 城市算力网络建设团队。
核心价值主张:
• 全栈覆盖:实现从芯片直至机柜的全链路散热,可适配功率在600W以上的高功耗器件以及功率范围为20 - 100kW的高密度机柜。
• 极致能效:PUE 稳定处于 1.1 至 1.2 的范围,自然冷却技术得以深度融合,每年节能幅度超过 40% 。
• 智能精准:软件定义的三级温控模式,其负载响应速度可达秒级,并且可让运维人力成本降低70%。
• 灵活落地:可支持新建场景以及不停机改造场景,并且可以兼容主流设备,同时扩容成本较低。
• 政策红利:满足绿色数据中心标准,轻松申报百万级专项补贴。
结语:全栈液冷,定义算力散热新基准
随着算力需求从以往的 “芯片级爆发” 逐渐升级转变为 “机柜级密集” 状态,全链路散热协同已然成为了保证算力中心可高效运行的核心保障要素,塔能科技所推出的从 “芯” 至 “柜” 的全栈液冷解决方案,借助航天级硬件设计以及智能化软件调控二者的深度融合方式,成功破解了高密算力所面临的散热难题,并且还实现了能效与可靠性这两方面的双重突破。
随着芯片功耗持续提升与算力密度不断增加,全栈液冷会成为算力中心的标准配置方案,塔能科技会一直秉持“好节能,塔能物联网精准节能”的价值主张,把“用软件定义硬件,让物联运维更简捷更节能”当作核心理念,持续对全栈液冷技术进行更新,为更多的算力基础设施提供“精准、高效、智能、可靠”的散热解决办法,助力我国算力网络高质量发展。
)

)
)
)
)
)
有限公司提供专业解决方案)
)
)
价格(打除皱针多少钱会有眼袋))
)
(埋珠疼吗))
)

)