研究提出最新GPU池化系统Aegaeon,用token级别的自动扩缩容技术,硬是把GPU使用量从1192个“瘦身”到213个。 之前要同时运行这些模型时,要么给每个模型单独分配GP,很多冷门模型的GPU经常…...