尤其SIMT模型用了二十年,虽然撑起了早期AI算力,但到了生成式AI时代,张量计算动不动就是上百G的数据,程序员得手动管理成百上千个线程,调参调到眼冒金星是常事。 CUDATile就是来解决这个问题的,它搞…...