
文|有风
编辑|有风
英伟达最近悄悄放了个大招,CUDA13.1正式发布了。
别看只是个版本号加了0.1,这东西对搞AI的来说,跟程序员收到新键盘一样,恨不得连夜上手试试。
毕竟CUDA从2006年问世到现在,早成了AI算力的“地基”,全球八成以上的AI模型训练都得靠它。
这次13.1版本,英伟达没搞虚头巴脑的宣传,直接甩出两个硬菜,CUDATile和GreenContext。
这俩名字听着挺玄乎,但懂行的一看就知道,这是要把AI算力的“水龙头”彻底拧开了。
一、CUDATile,程序员终于不用跟线程“死磕”了
搞AI编程的都知道,写CUDA代码以前就是个体力活。
尤其SIMT模型用了二十年,虽然撑起了早期AI算力,但到了生成式AI时代,张量计算动不动就是上百G的数据,程序员得手动管理成百上千个线程,调参调到眼冒金星是常事。
我见过不少算法工程师,为了让一个卷积层在GPU上跑快点,对着线程块大小改半天,改完在A100上跑挺好,换个H100又不行了。
这种“硬件绑定”的麻烦,简直是开发者的噩梦。
CUDATile就是来解决这个问题的,它搞了个“块级编程模型”,简单说就是让程序员不用再操心单个线程怎么跑,直接告诉GPU“我要处理这块数据”就行。
比如用cuTilePython写代码,以前需要十几行线程配置的代码,现在一行“tile(数据块)”就搞定。
更妙的是它那个IR虚拟指令集,相当于给硬件和软件之间加了个“翻译官”。
不管未来GPU架构怎么变,代码写一次就能用。
这种从“管线程”到“管数据”的转变,才是真的把开发者从重复劳动里解放出来了。
英伟达这次还特地给Blackwell架构开了小灶,优先支持CUDATile。
这操作不难理解,新硬件配新技术,才能让H100、B100这些“算力怪兽”真正跑起来。
毕竟光有快硬件没用,软件跟不上,就像给跑车配了条乡间小路。
二、GreenContext,GPU资源“抢地盘”的日子该结束了
解决了编程的麻烦,另一个让工程师头大的问题就是GPU资源不够用。
数据中心里,一个GPU往往要跑好几个任务,训练模型的、跑推理的、做科学计算的挤在一起,就像早高峰的地铁,谁都想抢点空间。
传统CUDA调度就这点不好,一旦一个任务占了GPU,其他任务要么干等着,要么抢资源导致大家都变慢。
尤其像自动驾驶的实时推理,毫秒级的延迟都可能出大事,要是被其他任务“卡脖子”,后果不堪设想。
GreenContext就是来当“交通警察”的,它搞了个“轻量级执行环境”,说白了就是把GPU拆成好几个独立的“小GPU”。
通过SM分区技术,每个任务分一块专属区域,互不干扰。
比如用splitAPI,能直接把GPU的计算核心按比例分给不同任务,想给推理任务多留点资源?调个参数就行。
高频交易公司最吃这一套,他们的算法对延迟敏感得很,差几毫秒可能就是几百万的损失。
有了GreenContext,就算同一台GPU上还跑着其他任务,交易算法也能独占一部分资源,延迟稳稳的。
数据中心管理者估计要笑出声了,以前GPU利用率能到60%就算不错,现在通过精细化管理,跑到80%以上问题不大。
省下的硬件成本,够多买好几台服务器了。
如此看来,GreenContext不光是技术升级,更是帮企业省钱的“财神爷”。
这次CUDA13.1还偷偷升级了工具链和数学库,NsightCompute新加了Tile核函数可视化,以前调性能得对着日志猜,现在一看图就知道哪里慢。
ComputeSanitizer能在编译时就找出内存错误,不用等到运行时崩溃了才抓瞎。
数学库方面,cuBLAS的低精度计算优化,让大模型训练速度又快了一截。
cuSOLVER在Blackwell上的算法优化,连搞流体力学模拟的教授都跑来问什么时候能用上。
这些看似不起眼的小升级,其实是在给AI和科学计算搭“鹊桥”,让两个领域的算力能互通有无。
说到底,CUDA13.1的更新,看着是几个技术点的升级,实际上是英伟达在AI算力这场仗里,又往前挪了一步。
从编程范式到资源管理,再到工具链生态,它把整个AI算力的“生产链”都优化了一遍。
未来的AI算力竞争,恐怕不只是硬件参数的比拼,更是软件生态的较量。
英伟达这手“软硬兼施”,怕是要让竞争对手更难追了。
对我们普通开发者来说,倒是乐见其成,毕竟工具越好,干活越轻松,不是吗?
)
)
)
)
)
)
)
)
)
)
)
)
)
)

)