
智通财经APP获悉,广发证券发布研报称,在高并发、长上下文的密集型推理中,MRDIMM与CXL形成“近端高带宽+远端大容量”的分层协同,以更低TCO增加AI服务器内存供给与弹性扩展。CXL 3.1对KVCache的性能提升尤为明显,特别适用于高并发、超长上下文的负载。建议关注产业链核心受益标的。
广发证券主要观点如下:
MRDIMM和CXL增加AI服务器内存
如何同时提升并平衡AI服务器的内存容量扩展与性能成为当前架构演进的核心难题。当前存在三个难题:(1)HBM成本高、容量受限;(2)不同应用与负载的内存需求差异明显,需避免内存不足/过度配置;(3)CPU插槽的内存可扩展容量成为瓶颈,需要新型存储与架构来拓展。MRDIMM与CXL形成“近端高带宽+远端大容量”的分层协同,以更低TCO增加AI服务器内存供给与弹性扩展。
MRDIMM为面向KVCache密集型推理的近端内存基座
MRDIMM在大模型推理的KVCache场景下提供确定性增益:并发更高、上下文更长、端到端时延更低,并显著优化CPU–GPU内存编排与资源利用。具体体现为:(1)带宽提升:根据Next-Gen AIApp Server Performance with CXL3.1 Tier Memory and MRDIMMGen2 solution报告,MRDIMMGen2最高支持12800 MT/s速率,在AI负载下相对DDR5 RDIMM带宽可提升2.3倍;更快的内存访问显著降低KVCache读/写时延,支撑高吞吐推理;(2)容量扩展:单条支持64/96/128GB容量,支持更长上下文与更多并行会话;(3)解耦式内存设计:MRDIMM的高带宽与大容量适配CPU侧KVCache卸载。Intel Xeon 6“Granite Rapids”搭载12通道内存控制器,可充分释放MRDIMM带宽潜力,有效缓解GPU显存压力,并利于多会话调度与跨会话KVCache复用,在延迟与成本间取得平衡。
CXL提供远端/池化拓展,在KVCache密集型推理中形成显著TCO优势
CXL 3.1对KVCache的性能提升尤为明显,特别适用于高并发、超长上下文的负载。具体体现为:(1)内存池化与扩展:在CPU/GPU/加速器间做内存池化,将部分KVCache从昂贵的GPU显存弹性卸载到CXL设备,在不增加GPU成本前提下扩大有效容量至TB级;(2)低时延访问:CXL访问时延可逼近CPUDRAM,使置于CXL的KVCache在高负载下亦能维持接近实时的解码性能;(3)解耦式KVCache架构:在字节跳动LLM服务栈中,将KVCache卸载至CXL可使batch size提高30%、GPU需求降低87%、prefill阶段GPU利用率提升7.5倍;(4)分层内存管理:CXL支持冷热分层,允许根据访问频率对KVCache进行动态放置。热点KV驻留GPU/CPUDRAM,温冷数据迁移至CXL池。以DeepSeek-1.73B量化模型为例,单路CPU(CPU0+128GB)+CXL扩展128GB较双路CPU(CPU0/CPU1各128GB)在提示与解码吞吐基本持平,但处理器数量更少,形成明显TCO优势。
风险提示
AI产业发展以及需求不及预期;AI服务器出货量不及预期,国产厂商技术和产品进展不及预期。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)