天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖(天下苦美久矣原文) 99xcs.com

允中 发自 凹非寺

量子位 | 公众号 QbitAI

近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:

  • 训练复杂性:VAE旨在将高维图像压缩至低维隐空间,并能从中重建图像。但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。

  • 高昂的微调成本:当需要在新的领域(域外数据集)上微调生成模型时,如果预训练的VAE在该领域表现不佳,则必须连同生成模型一起微调,这无疑会显著增加训练成本和开发周期。

为了从根本上解决VAE带来的诸多限制,EPG中提出通过自监督预训练(SSL Pre-training)与端到端微调(End-to