当前位置: 编码机 >> 编码机资源 >> GAN强势归来英伟达耗费64个A100训
选自arXiv
作者:AXelSauer
机器之心编译
编辑:赵阳
扩散模型在文本到图像生成方面是最好的吗?不见得,英伟达等机构推出的新款StyleGAN-T,结果表明GAN仍具有竞争力。
文本合成图像任务是指,基于文本内容生成图像内容。当下这项任务取得的巨大进展得益于两项重要的突破:其一,使用大的预训练语言模型作为文本的编码器,让使用通用语言理解实现生成模型成为可能。其二,使用由数亿的图像-文本对组成的大规模训练数据,只要你想到的,模型都可以合成。
训练数据集的大小和覆盖范围持续飞速扩大。因此,文本生成图像任务的模型必须扩展成为大容量模型,以适应训练数据的增加。最近在大规模文本到图像生成方面,扩散模型(DM)和自回归模型(ARM)催生出了巨大的进展,这些模型似乎内置了处理大规模数据的属性,同时还能处理高度多模态数据的能力。
有趣的是,年,由Goodfellow等人提出的生成对抗网络(GAN),在生成任务中并没有大放异彩,正当大家以为GAN在生成方面已经不行的时候,来自英伟达等机构的研究者却试图表明GAN仍然具有竞争力,提出StyleGAN-T模型。