编码机

从画笔到像素一文读懂AI绘画的前世与今生

发布时间:2023/7/24 16:43:13   

关于AI绘画,你需要知道的一些事。

上周,备受期待的MidjourneyV5AI艺术生成器正式发布,再次改变了AI驱动的艺术创作世界。它拥有显著增强的图像质量、更多样化的输出、更广泛的风格范围,以及对无缝纹理的支持、更宽的宽高比、改进的图像提示、扩展的动态范围等。

下图是以“埃隆·马斯克介绍特斯拉,90年代的商业广告”为prompt(提示),分别用MidjourneyV4和MidjourneyV5生成的图像。

此次满足人们期待的是,MidjourneyV5带来了更逼真的图片生成效果,更有表现力的角度或场景概述,以及终于画对的“手”。曾经在AI绘画界广泛流传的一个笑话是,“永远不要问一个女人的年龄或一个AI模型为什么要把手藏起来。”

这是因为,AI艺术生成器是“画手困难户”,尽管它们可以掌握视觉模式,但不能掌握潜在的生物逻辑。换句话说,AI艺术生成器可以计算出手有手指,但很难知道一个人的一只手正常应该只有5个手指,或者这些手指之间应该具有固定关系的设定长度。

在过去的一年里,AI艺术生成器无法正确渲染手的“缺陷”已经成为一种文化修辞。手部问题在一定程度上与AI艺术生成器从它们接受训练的大量图像数据集中推断信息的能力有关。

值得注意的是,MidjourneyV5可以很好地生成逼真的人手。大多时,手是正确的,一只手有5个手指,而不是7-10个。

MidjourneyV5的发布,引起了全球用户更广泛的兴趣激增,巨大流量的涌入使得Midjourney服务器短时间崩溃,进而导致众多用户无法访问。除此之外,OpenAI的DALL·E2、StabilityAI的StableDiffusion等“文生图”模型此前也是业内讨论的热门对象。

当人们向这些“文生图”模型中输入任何文本后,它们就可以生成与该描述相匹配的、较为准确的图片,生成的图片可以被设定为任意风格,如油画、CGI渲染、照片等,在很多情况下,唯一的限制来自人类的想象力。

前世:一场从DeepDream开始的梦

年,第一幅由AI生成的肖像《EdmonddeBelamy》问世,它由生成对抗网络(GAN)创建,是ObviousArt的“LaFamilledeBelamy”系列的一部分,最终在佳士得艺术品拍卖会上以美元成交。

年,JasonAllen的AI创作作品《ThétreD’opéraSpatial》在科罗拉多州博览会的年度艺术竞赛中获得了第一名。

近些年,各类“文生图”模型也在人们的期待中纷纷登场。当神经网络在图像处理方面取得了一定的成果后,研究人员们便开始开发一些可视化技术,以更好地了解这些神经网络是如何看待世界并进行分类的,由此塑造了一个又一个“文生图”模型。

DeepDream根据神经网络学到的表征来生成图像,在获取输入图像后,通过反向运行经过训练的卷积神经网络(CNN),并试图通过应用梯度上升来最大化整个层的激活。下图(左)显示了原始输入图像及其DeepDream输出。

令人惊讶的是,输出图像中包含了许多动物的面部和眼睛,这是因为DeepDream使用了ImageNet数据库(不同犬种和鸟类的例子)来训练。对于一些人来说,DeepDream生成的图像类似于梦境般的迷幻体验。但即便如此,DeepDream加速了人们将AI作为艺术图像创作的工具的工作。

NeuralStyleTransfer是一种基于深度学习的技术,能够将一张图像的内容与另一图像的风格相结合,如上图(右),将梵高的《星夜》应用于目标图像。NeuralStyleTransfer重新定义了CNN中的损失函数来实现——通过CNN的高层激活保留目标图像,以及多层激活来捕捉其他图像的风格。由此,输出的图像将保留输入图像的风格与内容。

年,WeiRenTan等人提出了模型“ArtGAN”,尽管其输出的图像看起来完全不像是画家的作品,但仍旧捕捉到了艺术品的低阶特征。由此,ArtGAN激发了更多研究者使用GAN生成艺术图像的兴趣。

不久之后,AhmedElgammal等人提出创造性对抗性神经网络“CAN”,以训练GAN生成被鉴别者视为艺术但不符合任何现有艺术风格的图像。由CAN产生的图像看起来大多像一幅抽象画,给人一种独特的感觉。

年,PhillipIsola等人创建了条件型GAN,即pix2pix,接收输入图像后生成一个转换版本。例如,在现实生活中,假设有一个RGB图像,我们可以轻松将其转换为BW(黑白二值图像)版本。但若想要把BW图像变成彩色图像,依靠手动上色就很耗时。pix2pix则可以自动完成这一过程,并应用于任何图像对的数据集,而不需要调整训练过程或损失函数。

pix2pix是生成式AI的一个重大突破,但它需要相应的图像对来进行训练,而这并不适用于所有应用。例如,如果没有为莫奈创作的每一幅画提供相应的照片,pix2pix就无法将输入转换为莫奈绘画。

为此,Jun-YanZhu、TaesungPark等人提出了“CycleGAN”,通过组合两个条件型GAN和它们之间的“循环”来扩展pix2pix,这一模型可以将图像转换为其他模态,而无需在训练集中看到成对图像。

今生:Transformer和Diffusion之争

重大的转折发生在年,一些“文生图”模型纷纷降临。OpenAI发布了DALL·E——以Pixar的动画片《Wall-E》和超现实主义画家SalvadorDali命名。DALL·E结合了学习将图像映射到低维标记的离散变分自动编码(dVAE)和自回归建模文本和图像标记的Transformer模型。输入给定的文本,DALL·E可以预测图像标记,并在推断过程中将其解码为图像。

DALL·E还可以将其单独学习但从未在单个生成的图像中看到的概念组合在一起。例如,在训练集中有机器人和龙的插图,没有龙形机器人。当被提示“机器人龙”时,模型仍可以产生对应的图像。

然而,虽然DALL·E可以很好地生成漫画和具有艺术风格的图像,但无法准确地生成逼真的照片。因此,OpenAI投入了大量资源来创建改进的文生图模型——DALL·E2。

DALL·E2使用CLIP(图像文本对的数据集)文本编码器。DALL·E2中利用了文本描述和图像之间的关系,为Diffusion模型提供了一种嵌入,反映了文本输入且更适合于图像生成。与DALL·E相比,DALL·E2提高了图像的质量,并且还允许用户扩展现有图像或计算机生成的图像的背景。例如,把一些名作中的人物放置在自定义的背景之中。

不久之后,谷歌发布了名为Imagen的文生图模型。这一模型使用NLP模型T5-XXL的预训练编码器,其嵌入被反馈送至Diffusion模型。因此,这一模型能够更准确地生成包含文本的图像(这是OpenAI的模型难以解决的问题)。

然而,在“文生图”领域最大的革命可能是StabilityAI公司发布的完全开放源代码的StableDiffusion。StableDiffusion的计算效率远高于其他文生图模型,以前的文生图模型需要数百天GPU计算,StableDiffusion需要的计算量要小得多,因此资源不足的人更容易接受。它还允许用户通过图像与图像之间的转换(如将素描变成数字艺术)或绘画(在现有图像中删除或添加一些东西)来修改现有的图像。

深度学习及其图像处理应用现在处于与几年前完全不同的阶段。在上世纪初,深度神经网络能够对自然图像进行分类是开创性的。如今,这些里程碑式的模型或是采用Transformer或是基于Diffusion模型,能够基于简单的文本提示生成高度逼真和复杂的图像,使得“文生图”领域大放异彩,成为艺术界的一只新画笔。

“威胁”or“共生”,人类画家何去何从

AIartist自诞生起就饱受争议,版权纠纷、输出错误信息、算法偏见等等,让“文生图”应用一次又一次站在了风口浪尖。例如,今年1月,三位艺术家对StableDiffusion和Midjourney的创建者StabilityAI和Midjourney以及DreamUp的艺术家组合平台DeviantArt提起了诉讼。他们声称,这些组织侵犯了“数百万艺术家”的权利,在“未经原创艺术家同意”的情况下,用从网络上抓取的50亿张图片来训练AI模型。

艺术家们大多很害怕自己会被机器人取代,因AI模仿其独特风格的模型而失去生计。在去年12月,数百名艺术家向互联网上最大的艺术社区之一ArtStation上传图片,表示“对AI生成的图像说不”。同时,一些艺术家悲观地认为,“我们正眼睁睁地看着艺术之死展开”。围绕训练数据中使用的图像版权问题,尚处于争议之中。

当然,也不乏一些艺术家积极地拥抱AI,将文生图模型当作自己的绘画助手,省去重复性的枯燥劳动。同时,一些艺术家将AI作为想象力的“引擎”,在与类似Midjourney软件及社区中的用户交互中,彼此互相撕裂,产生新的、有趣的人类美学,进而溢出到真实世界。正如Midjourney所描述的:“AI不是现实世界的复刻,而是人类想象力的延伸”。

目前,监管机构正在追赶AIartist的脚步。最近,美国版权局在一封信中表示,使用AI系统Midjourney创建的图画小说中的图像不应获得版权保护,该决定是美国法院或机构对AI创作的作品的版权保护范围做出的首批决定之一。另外,一些学者为保护艺术家免受文生图DIffusion模型的风格模仿,提出了一个允许艺术家将精心计算的扰动应用到他们的艺术中的系统——Glaze。

一系列“文生图”应用允许没有编程知识的艺术家及大众使用这些强大的模型,生成极具视觉震撼的图像。“给AI以创造”,不论是绘画还是其他领域,这些工具可以帮助艺术家表达他们的创造力,并可能塑造艺术的未来。

AI在艺术中的作用将取决于它的使用方式以及使用它的人的目标和价值观,重要的是要记住,这些模型的使用应该以道德和负责任的考虑为指导。

参考链接:



转载请注明:http://www.aideyishus.com/lkzp/5342.html

------分隔线----------------------------