当前位置: 编码机 >> 编码机发展 >> 文本生成图像这么火,你需要了解这些技术的
选自Intento
作者:GrigorySapunov
机器之心编译
机器之心编辑部
目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E2(unCLIP)的模型框架、优缺点,及其迭代关系。
OpenAI最近发布了DALL·E2系统,在AI界引发了「地震」,该系统能够根据文本描述创建图像。这是DALL·E系统的第二个版本,第一个版本是在近一年前发布的。然而,在OpenAI内部,DALL·E2背后的模型被称为unCLIP,它更接近于OpenAI的GLIDE系统,而不是原始的DALL·E。
对笔者来说,DALL·E2系统的冲击力可以与AlphaGo相媲美。看起来该模型捕获了许多复杂的概念,并且以有意义的方式将它们组合起来。就在几年前,计算机能否从这样的文本描述中生成图像还是一件难以预测的事情。SamAltman在他的博客文章中提到,我们对AI的预测似乎是错误的,是需要更新的,因为AI已经开始影响创造性的工作,而非只是机械重复的工作。
本文旨在带领读者一览OpenAI的文本引导图像生成模型的演变,包括DALL·E的第一个和第二个版本以及其他的模型。
DALL·E演变史
DALL·E1
DALL·E的第一个版本是GPT-3风格的transformer解码器,它可以根据文本输入和可选的图像开头自回归生成×大小的图像。
你一定见过这些牛油果椅子:
来自原始博客文章。
如果你想了解类似GPT的transformer的工作原理,请参阅JayAlammar的精彩视觉解释:
转载请注明:http://www.aideyishus.com/lktp/5289.html