黄仁勋在 SIGGRAPH 2023 的主题演讲上透露了英伟达为降低生成式AI使用门槛所做的最新努力。
生成式AI是这次大会毋庸置疑的绝对主角,黄仁勋会上透露的在软件和硬件以及生态方面的更新,归结起来就是尽力降低生成式AI的使用门槛——促进大模型的真正落地。
“买的越多,省的越多”2.0
硬件方面,英伟达推出了GH200超级芯片的更新版,或者可以叫它HBM3E增强版。它是世界第一款HBM3e 处理器。
通过英伟达NVLink技术,彼此互联的Grace Hopper超级芯片平台能够提供1.2TB的快速内存,由于HBM3e 内存比当前 HBM3 快 50%,平台总共能提供 10TB/秒的组合带宽。也就是说,其内存容量增加3.5倍,带宽增加了3倍,平台包括了一台具有144 个 Arm Neoverse 核心、8 petaflops 的 AI 性能和 282GB 最新 HBM3e 内存技术的服务器。它同时与早先在台北电脑展上公布的英伟达MGX服务器规范完全兼容。
数据中心的硬件正在快速向加速计算转变,这是黄仁勋一直在强调的一个趋势。相比CPU,GPU在能效上有很大的优势,黄仁勋演讲中举的例子是同样1亿美元成本,相比x86架构CPU,GH200将能提供超过20倍能效提升。
于是我们又听到了黄仁勋那句名言:the more you buy, the more you save. 买的越多,省的越多。
可以说也是不忘初心了。
除了数据中心外,黄仁勋还发布了两套硬件,它们同样针对大模型而来。
一款是桌面级的RTX工作站,包括最多四个RTX 6000 Ada GPU,单个桌面工作站可提供高达5,828 tflops的AI性能和192GB GPU内存。
另一款是 OVX服务器,其中包括了8个英伟达L40S GPU,每个 GPU 配备 48GB 内存,可提供超过 1.45 petaflops 的张量处理能力。
作为对比,新的RTX工作站运行8.6亿个token的GPT3-40B需要15个小时,OVX服务器则只需要7小时。实际上,OVX服务器相比A100,推理性能提高了1.2倍,训练性能上提高1.7倍。其单精度浮点 (FP32) 性能是 A100 的近 5 倍。
这些硬件的更新是有梯度的,黄仁勋演讲中也点的很明白:for everyone,英伟达在每个价格阶段上都为潜在客户准备了对应产品。
因此除了服务器和工作站之外,英伟达还同时发布了三款专业显卡——RTX 5000, RTX 4500 and RTX 4000,它们采用了Ada Lovelace 架构,在显存方面都有提升(RTX 4000有 20GB GDDR6显存;RTX 4500 为24GB;RTX 5000 最高为32GB ),这是英伟达显卡过去曾一度削弱的部分,而现在显存对于大模型来说无比重要。另外它们还使用了第四代Tensor Core,AI 训练性能比上一代快了两倍,并扩展了对 FP8 数据格式的支持。
这些硬件最终组成了一个矩阵,囊括了从企业级客户到个人用户。但在黄仁勋看来,想要触达每一个人,英伟达还需要一些“软工具”。
软硬兼施
距离黄仁勋推出 DGX Cloud 才短短几个月,英伟达在降低用户和开发者使用大模型门槛方面又有新的动作。
其中一项是非常好猜的,那就是和 Hugging Face 的合作。在此之前,Hugging Face 已经和包括 AMD 亚马逊云等在内的诸多巨头紧密合作,大家都看中了它集成开放模型的优势,英伟达也不例外。
“点击一下鼠标即可实现英伟达AI计算。”黄仁勋说,几个月前发布的DGX Cloud 和Hugging Face 平台集成到了一起。用户可以先在自己的电脑上启动项目,然后扩展到工作站和数据中心。
另一项名叫英伟达AI Workbench,开发人员可以直接在PC和工作站上创建、测试和定制预训大模型。这非常像国内的大模型预训练平台,把模型、框架和软件开发套件与库集合到了一个统一的开发人员工具包中,要说区别那就是AI Workbench能直接调用英伟达的算力资源,并且更好的支持英伟达的硬件——前面发布的那些工作站和服务器不用说都支持AI Workbench的本地测试和微调。
它的界面就是一个网站。截图可以看到,本地计算机使用的是消费级 4090 移动版显卡。
这极大简化了大模型的操作流程,实际上你只需要一台电脑就够了。
“每个人都可以做到这一点。”黄仁勋说道,某种意义上讲,这像是大模型的民主化。
另外一个旨在降低生成式AI部署门槛的服务是名为AI Enterprise 4.0的企业软件平台,主要针对企业客户。AI Enterprise 4.0包括了名为NeMo的大模型云原生框架和集群管理软件,帮助企业客户管理从云到数据中心再到边缘设备的所有AI解决方案,它会被集成到谷歌云和微软的Azure。
场景在哪里
大模型最近一个颇为引人争论的话题是,它的场景到底在哪里?
这对善于从第一性原理出发的老黄来说恐怕完全不是问题,一方面有硬件技术,一方面有软实力。英伟达的层次显然更高一点——不是找寻场景,而是打造生态。因为在英伟达看来,恐怕没有什么所谓“垂直场景”,一切都可以被生成式AI介入,承载它的是Omniverse。
元宇宙在黄仁勋这里不是一个过气的名词,而是连接虚拟与物理世界,并且极大开发生成式AI潜力的工具。在虚拟与现实的转换中,英伟达看中了名为Universal Scene Description,通用场景描述(简称OpenUSD)的潜力。
黄仁勋把OpenUSD对虚拟世界的重要性与HTML之于2D互联网的重要性相提并论。简单来说,你可以把OpenUSD理解成一套通用的描述3D场景的语言——这在过去往往需要非常复杂的流程和不同的工具才能实现。
有了这种通用语言,不同的人能基于同样的背景建构3D世界——也就是元宇宙的世界。
显而易见,OpenUSD在英伟达的元宇宙愿景中占有重要地位,为此,Omniverse进行了多重升级。
一方面,黄仁勋推出了四个Omniverse Cloud API,方便开发人员无缝地实施和部署 OpenUSD 应用。
最吸引人的是一个名为ChatUSD的功能,顾名思义,它能通过问答形式帮助开发者生成3D模型,现场演示的例子中,你提出要求,ChatUSD可以直接给你提供Python-USD 代码脚本——直接使用它们就可以了!
另外使用了生成式AI技术的API名为DeepSearch,它是一个大语言代理(LLM agent),可以快速搜索无标记数据库的内容。
另一方面,Omniverse本身进行了大升级以更好支持OpenUSD,比如用少量的编码就能快速开发本机 OpenUSD 应用以及允许用户组建基于OpenUSD的大规模场景。
在英伟达看来,Omniverse 将因为OpenUSD而增强,它可以跨3D工具和应用进行对世界的虚拟,这意味着一种生态的搭建:既然大家都是用OpenUSD进行3D世界的建构,那么显然,数字孪生所需要的互联、互相操作可以以此为基础实现。
由此,英伟达的元宇宙生态——它被生成式AI和OpenUSD所加持——变得初具规模,Adobe Firefly可以作为 Omniverse 中的 API 提供给开发者,而许多业界知名的元宇宙和虚拟人开发者,Convai、Inworld AI和Wonder Dynamics都能够借助OpenUSD的通用标准与Omniverse实现连接。
英伟达对元宇宙的未来充满自信。波士顿动力正在使用Omniverse来模拟机器人交互,更多的工业自动化案例,包括沃尔沃、奔驰和宝马都是Omniverse的客户——在实际投入巨资建设一个昂贵的工厂之前,它们在Omniverse的虚拟世界里检查和测试物理世界的方方面面。
步入融合
生成式AI热度不退,英伟达当然更有理由为其添一把柴,老黄是个尽职尽责的商人,发布会上他说的最后一句话还是 the more you buy, the more you save. 足见其不忘初心的商人本色。
而想要让自己的硬件卖的更好,股价再创新高,英伟达一面需要不断迭代产品,提升性能,打造更丰富的生成式AI产品矩阵,另外一方面还要进一步降低大模型的使用门槛——后者甚至只有英伟达才能做到,它踩中了一个绝佳的点位,图形。
为了让机器生成图像,人类花了几十年时间,最终英伟达开发出了显示卡,而现在的事实证明,适用于图形显示的并行计算恰好也适用于生成式AI,而虚拟世界也需要更强大的图形技术和人工智能的帮助。
黄仁勋在演讲刚开始的时候就举了个例子:来自全球最大广告公司WPP的艺术家通过Omniverse运用多种支持OpenUSD的工具创建了比亚迪汽车的数字孪生版本——全球100多个地区的营销活动基于这些生成内容。
五年前的SIGGRAPH大会,英伟达发布了支持光线追踪的GPU,那时恐怕没有人会想到,人工智能,虚拟世界,加速计算,云,它们会以如此迅猛的速度逐渐融合为一体。
0 条评论
请「登录」后评论