昨天借着全球最大的游戏开发大会 GDC17 的机会,英伟达宣布推出最新款游戏用显卡 GeForce GTX 1080 Ti。新显卡采用 16纳米制程 Pascal 架构,具备 3584 个 CUDA 核心以及高达 11GB 的显存,从纸面参数上新核弹比上一代游戏/通用计算多用途显卡 Titan X 性能稍强一些,比自己的前辈产品 GTX 1080 也强了 35%。
但在新核弹的喧嚣之余,PingWest品玩(微信公众号:wepingwest)关注到了英伟达在游戏开发方面的更多主张和尝试。这家称自己 “All about AI” 的计算技术公司,正在快速改变游戏和 AI 的关系。
此 AI 非彼 AI。在过去,游戏 AI 可以指所有非玩家角色 (NPC),比如剧情中的配角、Boss 和商人等,也可以再进一步,泛指所有游戏的非玩家内容,比如作战机制和商业系统等等。它是由人设计的。
但英伟达觉得,游戏行业即将进入一个新的 AI 时代——用 AI 来辅助设计和开发游戏,而且质量并不逊于人工制作。
“简单来说,过去的 AI 就是规则和脚本,让 AI 照着你的设计行动,再到后来有了决策树,更先进一些。”英伟达应用深度学习研究部 (Applied Deep Learning Research) 副总裁布莱恩·卡坦萨罗称。但他认为,随着深度学习技术突飞猛进式发展,AI 可以帮助开发者生成音画素材,甚至剧情、任务等机制性的内容。
过去两年,英伟达已经带来了多项基于机器学习和神经网络的工具,以解决游戏开发者面临的棘手难题。举个例子,大型游戏的一大特点是画面精美,但这需要美工画师和视觉设计师巨大的精力去创作材质。受制于人员和财力,中小开发者往往在视觉质量上打了折扣,更多人选择了矢量化,甚至更粗糙的视觉风格。
英伟达高级开发技术经理安德鲁·艾德斯登展示了一项名叫 2Shot 的技术,让开发者更轻松地从真实世界中提取材质,应用到游戏中:只需分别打开和关闭闪光灯,用手机拍摄两张对象材质的照片,计算机将对它们进行自动处理,几分钟后即可生成素材文件。
2Shot 极大降低了开发者优化材质的技术门槛,但它仍有很大的提升空间。英伟达在去年又提出了 1Shot 技术,采用更强大的神经网络进行计算,只需一张照片就能生成素材,时间也降低到了数秒的时间。2Shot 的生成素材质量已经达到了工业级,而 1Shot 的质量还有待提高,但它们已经证明了机器学习和神经网络在游戏开发方面的应用前景。
英伟达还展示了另外两种技术,分别名为 Texture Multiplier 和 Super-Resolution。
Texture Multiplier(材质复制器)类似于视觉特效人员常用的“材质增生”(texture mutation) 技术,最大的不同是采用了经过了大量训练的卷积神经网络 (Convolutional Neural Network) 作为生成器,生成的效果高度接近真实,达到了肉眼难以分辨的水平。Texture Multiplier 将使得美工人员可以快速制作美观的大片面积材质,不再给人一种“你这材质复制粘贴的吧!”的感觉……
而 Super-Resolution(超分辨率)则听起来更为科幻。记不记得《谍影重重5》里的情节:CIA 特工在雅典宪法广场上寻找伯恩,用模糊的定格画面,“放大、增强!”(Zoom, enhance),然后就获得了一张特别清晰的照片,确定了目标?
其实过去根本没有这种高科技……至少在《谍影重重5》拍摄期间还没有,直到最近才有类似的出来。前不久 Google 的大脑团队实现了将 8x8 像素分辨率的,极度粗糙和颗粒化头像,还原成比较清晰的,达到了 32x32 分辨率的头像,而英伟达也在做类似的事情。
该公司研究者采用的具体训练方法(注意:和其他机构方法类似,可作参考),是先把大量的高清晰度照片“缩小”(downscale) 到非常低的清晰度,仅保留非常有限的特征,同时另外把这个降级过程中损失的特征保存下来。
采用这种方式处理了大量的高清图片之后,研究者获得了海量损失掉的特征。他们将这些特征整理合成一个“特征规律库”,就像辞典一样,意图在于告诉神经网络:再去“放大” (upscale) 图片的时候,按照这个辞典去操作。当然,具体操作起来比这个口头叙述的流程复杂得多,这个卷积神经网络模型需要数天的时间才能完成训练。
在此前的测试中,Google 大脑团队的同类技术能够成功还原 90% 被打马赛克的人脸,算是一个十分惊人的成绩。而英伟达则不满足于低清晰度,希望追求更“感人”的分辨率。艾德斯登告诉 PingWest品玩(微信公众号:wepingwest),该公司已经在实验室中实现仅花“很快”(数秒)的时间将 1K 分辨率重组为 4K 分辨率的高清照片。
这种技术能为游戏带来什么改观?英伟达期待它能够在未来,让游戏在更小容量的基础上,显著提高材质的清晰度和视觉效果。举个例子:在射击游戏中,当玩家举起狙击枪,瞄准镜里能显示出更清晰的远处画面和材质。
不光是英伟达,Google 旗下的英国人工智能技术公司 DeepMind,也在考虑用神经网络在游戏上搞点事情——当然如果你有印象的话,过去曾经传出人工智能在《打砖块》、《星际争霸》、《毁灭战士》乃至于围棋上碾压人类的消息,大多都是 DeepMind 搞出来的……
该公司在去年训练了一个名叫 WaveNet 的人工智能,让计算机生成的语音和人类原声越来越难以区分。WaveNet 和过去的串联式语音合成、参数式语音合成不同,将语音的原始数据(波性文件)细分到了以 1 毫秒为单位的区间,在每一个区间之间都采用递归神经网络 (Recurrent Neural Network) 和卷积神经网络进行预测学习。
最后, DeepMind 用 Google 自家的 TTS 语音转文字(目前世界上得分最高的该类技术)数据集进行测试,比 Google TTS 的得分高了 10 个百分点——但将 Google TTS 与人类原声之间的距离缩短了一半还多。
虽然玩游戏的时候,基本没人会特别仔细地听每一句对白,但不意味着开发者应该在这方便节省。WaveNet 将会成为游戏开发者的福音,“想象一下,当你需要调整剧情的时候,可以用计算机生成配音,不必再花钱请配音演员回来重录,甚至完全不用配音演员。”卡坦萨罗称。
你可以到 WaveNet 的网站上试听一下效果,跟真人声音差距真的很小。
好吧,现在 AI 有了生成声音、视觉材质等元素的能力,接下来呢?
就在上周,游戏开发公司 Nival 宣布了一个振奋人心的消息:他们给 2015 年发售的在线即时战略游戏《闪电战 3》开发了一个神经网络决策 AI:Boris。
在一则演示视频中,Boris 显示出了“风筝”敌方单位的能力(指吸引敌对目标,带其到处乱跑以打乱策略的行为);还可以在明显具有劣势时消极应战而非拼死顽抗,以起到保存火力的目的;当战场中有新的敌人加入,Boris 会自动分配部队火力到不同的目标上,也会根据敌方火力级别,自动指挥士兵坐上炮台,而不是傻站在地上,用步枪拼坦克。
更有趣的是,当双方对抗占点时,Boris 会选择性忽视那些挡路的残血敌军,优先抢点再等待机会击杀——这一特征显示出了 Boris AI 对不同奖励 (reward) 级别的理解,能够优先追求与全局获胜关系更大的奖励。
Nival 明确表示 Boris 没有使用游戏内核的任何地方数据,只使用对玩家可见的战场情况,每几秒钟进行一次决策。Boris 的更多技术细节暂未公开。
在游戏开发中应用 AI 技术,还有很大的想象空间。
去年,OpenAI 用《侠盗猎车手5》开发出了一个名叫 DeepDrive 的“自动驾驶模拟器”。由于游戏内部的车辆行驶数据应有尽有,OpenAI 发现其实可以用游戏数据来训练自动驾驶系统。虽然后来研究者删除了与该模拟器有关的内容(这里有一个 Twitter 上的视频演示,这项技术所属的项目官网还在),该事件还是令人印象深刻,它赋予了人们审视 AI 和游戏之间关系的新视角。
像《侠盗猎车手》这样的开放世界游戏,开发公司花费多年时间设计了大量的任务关卡,但最快的玩家不出几十个小时就能玩完全部的内容,继而希望获得更多的内容。然而开发公司要花更多精力在下一款游戏上,无暇顾及上一代(实际上开发公司 R 星的做法是用一个相对较小规模的团队维护游戏,继续添加新的在线游戏模式)——未来,AI 会不会获得生成任务、关卡、剧情的能力,以至于可以独立完成一个完整的游戏?
卡坦萨罗认为那样的未来会很棒,但应该只存在于设想阶段,“我觉得设计关卡和任务最难的地方在于,你怎样能让新关卡和任务足够有趣,这是目前 AI 还不能取代设计师的地方。你可以让 AI 生成对白,生成材质,但将对白、视觉、机制和剧情进行有序、有趣的拼接,它还做不到。我想可能有些幽默只有人懂。但我可以想象 AI 未来能够辅助设计师更快推出新的关卡和任务,那很将令人期待。”
聊到这里,我倒是有点担心了。
你说,AI 设计的游戏,会不会把玩家虐成狗?没准 AI 早就想在模拟环境里先感受一下,取代和虐杀人类是一种什么样的感觉吧……?
0 条评论
请「登录」后评论