(来源:IT之家)当时,通过一张角色图片加一段文字或音频,即可生成 1080p48FPS、最长 1 分钟的数字人视频。该数字人功能基于多模态理解与视频生成模型的深度结合,实现了口型精准同步以及情绪动作…...