阿里云秘密武器亮相顶会:狂砍82%英伟达含量,213块GPU干了1192块的活(阿里云密钥管理服务) 99xcs.com

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

阿里云秘密武器亮相顶会SOSP:用新技术砍掉82%的英伟达GPU需求。

一时引起不小关注与讨论。

这项研究由阿里巴巴与北大合作,阿里云CTO周靖人带队。

研究提出最新GPU池化系统Aegaeon,用token级别的自动扩缩容技术,硬是把GPU使用量从1192个“瘦身”到213个。

这项研究出发点在对阿里云自身业务一项观察。

在Model Studio(百炼平台)上,他们发现了一个让人头疼的现象:17.7%的GPU被分配去服务那些几乎没人用的冷门模型,而这些模型只处理了总请求量的1.35%。

之前要同时运行这些模型时,要么给每个模型单独分配GP,很多冷门模型的GPU经常空着浪费,要么用旧方法让一个GPU跑2-3个模型(因为GPU 内存不够,跑不了更多),总之资源利用率特别低。

Aegaeon瞄准这一痛点,通过精细化的资源调度,彻底改变了GPU资源分配的游戏规则。

冷门模型占用长尾资源

具体来说,在他们统计的779个模型中,有94.1%的模型属于长尾模型,平均每秒请求量不到0.2个。

久久小常识(www.99xcs.com)™

与此同时,那些热门模型比如DeepSeek和通义千问虽然请求量大,但也经常出现突发流量,导致预留的GPU资源时而过载、时而闲置。

如果按照理想情况计算,单个GPU每秒应该能处理好几个请求,这意味着当前的资源利用率还有超过10倍的优化空间。

久久小常识(www.99xcs.com)™

传统的做法是给每个模型分配专用GPU,但这种”一对一”的服务模式在面对大量偶发性请求时,简直就是在烧钱。

Token级别调度,让GPU”见缝插针”

Aegaeon的核心创新在于采用了token级别的自动扩缩容技术,而不是像现有系统那样在请求级别进行调度。

具体来说,系统会在生成每个token时动态决定是否需要切换模型,而不是等到整个请求处理完才考虑切换。

如此一来,可以让让GPU灵活处理多个模型的请求,大大减少了模型之间的等待时间。论文显示,通过这种方式,单个GPU可以同时服务多达7个不同的模型。

久久小常识(www.99xcs.com)™

为了实现这个目标,研究团队还进行了一系列底层优化:

  • 通过组件复用减少了80%的初始化开销;

  • 采用显式内存管理避免了内存碎片;

  • 实现了细粒度的KV缓存同步机制,让模型切换时间从几十秒缩短到1秒以内。

整体来看,这些优化将自动扩缩容的开销降低了97%。

久久小常识(www.99xcs.com)™

实战效果:吞吐量提升9倍

Aegaeon展现出最高可达9倍的性能提升,最低也有1.5倍,计算资源得到了极大的优化。

根据论文数据,与现有的ServerlessLLM和MuxServe等系统相比,Aegaeon能够支撑2-2.5倍的请求到达率,有效吞吐量(goodput)提升了1.5到9倍。在测试环境中,使用16块H800 GPU的集群,系统成功服务了从6B到72B参数规模的多个模型。

久久小常识(www.99xcs.com)™

更重要的是,这套系统已经在阿里云百炼平台进行了超过3个月的生产环境测试。

在实际部署中,它服务了47个不同规模的模型,包括28个1.8B-7B的小模型和19个32B-72B的大模型。GPU利用率从之前的13.3%-33.9%提升到了48.1%,期间没有出现任何SLO违规或服务中断。