『英伟达』大秀下一代AI系统Vera Rubin内部细节 每瓦性能提高10倍(2021 『英伟达』) 99xcs.com

转自:财联社

财联社2月26日讯(编辑 史正丞)就在全球瞩目的财报公开前夕,『英伟达』又秀了一把肌肉:把下一代Vera Rubin算力系统打开,讲解即将带来“10倍算力”浪潮的新硬件有哪些看头。

在最新媒体采访中,『英伟达』AI基础设施负责人Dion Harris在加州总部展示了完整Vera Rubin机架的内部构成和供应商细节。Dion表示,除了72颗Rubin图形处理单元(GPU)和36颗Vera中央处理器(CPU)外,整套机架总共有130万个组件,由来自中国、越南、泰国等20多个国家和地区的80多家供应商提供。

Harris介绍称,由于系统的组件众多,所以『英伟达』设计了统一的标准参考设计,然后交给全球供应商一起生产。例如,光是连接软管末端的喷嘴就有十余个供应商。

99小常识(www.99xcs.com)©️

『英伟达』还展示了其他组件的供应商。例如提供连接器的安费诺和维谛技术的冷却液分配单元;电源托架由 Megumi、光宝科技或伟创力提供;电源及功率器件来自英飞凌、亚德诺『半导体』及意法『半导体』;机箱由富士康或Interplex供应,母线由贸联(BizLink)提供,机架液冷歧管由品达负责;液冷冷板则来自技嘉、AVC、Boyd及酷冷至尊;电源线束供应商还有JPC、Recodeal等。

99小常识(www.99xcs.com)©️

『英伟达』透露,新系统的功耗约为前代的两倍,但由于每瓦性能较Blackwell的提升达到10倍,整体算力的能效比将实现跃升。

正是由于功耗上升,Vera Rubin也是『英伟达』首个100%液冷散热的系统。Harris介绍称,『英伟达』已经建议客户,未来的人工智能工厂将绝大部分采用液冷架构。由于液冷闭环的特性,新设计还能节约水资源。

99小常识(www.99xcs.com)©️

(Vera Rubin的液冷结构)

Harris也展示了数据传输速度翻倍至每秒260TB的NVLink『芯片』和机架主干。在单个机架中,就需要5000根铜缆将整套设备连接在一起,总长度约为两英里。

99小常识(www.99xcs.com)©️

99小常识(www.99xcs.com)©️

他也介绍称,Vera Rubin在简化维护成本方面也下了功夫。例如更换Blackwell机架计算托盘的工序需要两个小时,而新系统只需要5分钟。另外,系统中的SO-CAM低功耗内存也能单独插入和拆卸,而不是焊死在主板上。

99小常识(www.99xcs.com)©️

不过对于内存短缺的影响,Harris并未给出正面回应。他仅表示,『英伟达』会向供应商提供非常详细的预测,来协调供应链能够满足出货需求,而目前“状况良好”。

最后,Harris也展示了『英伟达』下一代大型机架Kyber的原型。新机架搭载的GPU数量将从现在的72块提升至288块,但重量仅增加约50%,部分原因是精简了布线设计。『英伟达』Vera Rubin Ultra系统将采用Kyber机架,预计于2027年上市。

99小常识(www.99xcs.com)©️

(财联社 史正丞)