犹记得两年前,英伟达首次推出了旗下全新的交互应用GauGAN,能够通过人工智能技术把小学生水平的简笔画瞬间转换成绝美风景图。
比如用几堆色块,一条竖杠就能生成疑是银河落九天的美景。随手画个圈,就能实时生成一汪水潭,倒映出绿树和天空四时不同的颜色。
一时间,GauGAN名声大噪,大家都对这种神奇的技术啧啧称奇,称GauGAN为当代“神笔马良”之笔,感叹着只有小学生绘画水平的自己终于也可以做艺术家了。
就在几天前,英伟达宣布更新GauGAN的2.0版本,在此前涂鸦画的基础上,增加了文本识别功能。简单来说,就是现在你连画都不用画了,直接把你脑海中想象的画面用文字输入,系统就能为你立马生成图像,帮把你模糊的设想变成现实。
硅星人一听,立马就来了兴趣。这牛啊,这不意味着人工智能学会了读心术,让你脑子里的奇思妙想一秒变成艺术大作吗?于是,趁着感恩节假期,硅星人决定亲自上手这个“神奇画布”,看看究竟能跟AI合作出什么作品出来。
经过2个小时的倒腾之后,此次硅星人体验的心路历程可以用“哇!-咦?-呃……-哦”来形容。那么,究竟是怎么回事呢?
只需一句话,还你一幅大作
GauGAN是一款比较类似于Photoshop的图片类软件。它的特点是基于生成对抗网络 (GAN)技术而开发,能够根据用户需求自动生成个性化的高质量图片。
英伟达开发GauGAN的目的,是想为未来的设计师、游戏开发者等各类型群体提供创建虚拟世界的强大工具,让人们能很快地将自己的灵感转化为原型并能便捷的修改它。此前,GauGAN 1.0 实现了让简笔涂鸦秒变大片,而这次GauGAN 2.0则能让文本一秒变大片。
那么,此次的GauGAN 2.0的文本转化功能有多强大呢?举个例子,当你输入“海浪打在岩石上”这句话时,画布上的图片会随着你输入的文本而实时变动,先出现平静的海,再出现岩石,最后精准呈现海浪拍岩石的画面。
当你输入“Sunshine in a tall tree forest”,系统会根据你逐渐细化的形容来实时更改图片,最后呈现一幅阳光透过森林的图片。
当然,除了通过文本生成之外,GauGAN 2.0同样也支持1.0版本的使用涂鸦、和导入图片生成的方式,而且还支持几种方式的混合使用。
在通过文字生成了图片之后,你可以进一步使用涂鸦功能对细节进行调整。比如你先用文本生成了一张沙漠里的太阳的图片,你想将其衍生呈现出《星球大战》里沙漠里升起两个太阳的场景,那么,你只需要在已生成图片的基础上再画一个小圆圈,图片里就会升起两个太阳。
再比如,你先导入一张海边风景的图片,然后使用快速擦除的功能擦去不想要的部分。接着,你再输入文本“极光”,AI就会自动给你加上特效,一张由你创作的极光大片就此产生。
英伟达表示,GauGAN 2.0背后的AI模型使用了NVIDIA Selene 超级计算机对超过1000万张高质量风景图像进行了训练,从而让AI理解单词以及单词之间的联系,并进一步将自然语言描述成风景图像。
同时GauGAN还是是多模式软件,也就是说,即便是你和别人输入了同样的涂鸦或文本,软件中内置的随机数也能确保你们最终的生成的作品是不同的。因此,每个人所产出的图片都是独一无二的。
GauGAN 2 “魔法”之初体验
虽然英伟达把GauGAN 2的能力宣传得如此神奇,但本着对科学负责任的态度,硅星人还是决定要亲自上手“验验货”。
此次英伟达免费为大众开放了一个GauGAN 2的体验平台。整个平台的构成很简单:左边是绘画区,右边是图片生成区,上方是文本输入栏和绘画工具栏。打开该平台后,会有一个简单的使用指南,教你如何使用文本和绘画工具生成和修饰图片。
一开始,硅星人的体验还是非常顺利的,一度为AI创作出来的效果而惊叹。
硅星人首先尝试使用了简笔涂鸦转换图片的功能。目前GauGAN系统内提供了建筑、土地、景观和植物四大类别的涂鸦选择,每个大类下设置了一些子类。
硅星人以先“海山礁石”为主题来做了一幅画,分别选择了“海”、“石头”的选项,然后在画布上涂鸦画了一通。
点击生成后,左侧就立马出现了一幅跟画布上格局一样的风景画,同时还生成了落日、星空等不同种类的天空背景选项。接着,硅星人在天上画了一块云,在海上画了一颗树。左侧就立马生成了令人惊叹的云彩效果和一颗棕榈树。
接着,硅星人尝试在文本区域分别尝试输入了Rainy的天气描述,令人惊喜的是,整个画面也会瞬间变成阴雨天。
在体验了涂鸦功能后,硅星人也单独尝试了此次重点更新的文本输入功能。
在输入“Endless tall mountains in a sunny day(晴天下连绵的高山)”之后,左侧立刻就生成了符合文本描述的景象。
自此,硅星人的整个体验都处于“哇”的状态。但就在硅星人准备将GauGAN称之为魔法之时,随着更多的尝试,画风开始逐渐走偏。
AI也有翻车的时候
在按照英伟达给出的范例、测试了最简单的转换之后,硅星人尝试按照自己的想法,输入比描述性短句更加复杂的文本。而这时,返回的作品就开始凌乱了。
当硅星人在文本框输入“一座坐落在宁静湖边的房子(A house near the peaceful lake)”时,系统并没有返回正常的湖泊或者房子的图像,而是呈现了一些非常抽象的图。
这是啥?黑暗城堡、长在天上的树,还是云端的战舰?怎么看都跟湖边小屋没啥关系。
此外,硅星人还发现,目前GauGAN 2的文本识别好像是只局限在建筑、土地、景观和植物这四大类之中。比如,当我们输入“一顿感恩节火鸡大餐(A Thanksgiving turkey dinner)”时,系统返回的图像仿佛是什么外星来物,跟火鸡、甚至晚餐根本都不沾边。
输入单词“沙发(Sofa)”时,返回来的图是这样的。如果有人看懂了这跟沙发之间的关系,麻烦留言解释一下。
输入单词“圣诞树(Chritmas tree)”时,返回的图片是这样的。感觉不像是圣诞树,倒有点中国春节灯会的感觉。
而除了文本转换,涂鸦模式也在接下来的体验中屡屡翻车。比如硅星人想画一个“小河边一座房子,房旁立着一颗树”的情景,在使用各种类别的画笔在画不上画出布局之后,生成的图像里就没有小河,画风也非常诡异,完全跟想要呈现的宁静画面大相径庭。
想画“两山之间一座桥”的情景,返回的画风也是十分灰暗。虽然硅星人也承认自己是灵魂画手,但也没有必要这么“灵魂”吧?
而在多次尝试和摸索后,硅星人终于总结出了一个用GauGAN 2返回正常画作的规律。
首先,在文本生成部分,输入的文本最好都跟自然景观相关,且形容词越简单越好,像大海、湖泊、山、岩石、树这些关键词都能比较准确返回结果。在涂鸦部分,尽量不要给画布留白,比如在画河流或湖泊时,周边也要画上土地或者草地,在涂鸦时也要尽量精细,这样系统会更容易理解你想要的感觉。
这背后的原因则是因为目前用于训练GauGAN 2的图像大部分都是风景类的,导致模型结果存在偏差。此前,英伟达也公开表示,GauGAN 2模型有超过 1 亿的参数,但目前训练时间还处于初始阶段。训练图像几乎都来自专有的风景图像数据集,因此系统识别目前也只专注于风景。
虽然GauGAN 2仍然还在Demo阶段,自己的作品也都大部分翻车了。但硅星人也发现很多大神已经使用GauGAN 2创作出了很多有趣的作品。
感兴趣的小伙伴假期无聊的话也可以自己去玩一玩:
https://www.nvidia.com/en-us/research/ai-demos/
期待看到你们的大作!
0 条评论
请「登录」后评论