科技界泰勒·斯威夫特、Token经济学鼓吹者、摩尔定律的新希望和新晋“英伟达首席财务摧毁官”黄仁勋,刚刚完成了他年度最重要演讲。
“人们说我的GTC演讲就像AI界的超级碗。”黄仁勋说。“电脑行业的所有人都在这里了。”
2025年3月18日,来自全球各地的数万人聚集在美国圣何塞,参加年度 GTC大会。这场演讲的确盛况空前,圣何塞不大的市区彻底拥堵瘫痪。10点开始的演讲,有不少人6点就开始排队。
这位英伟达创始人兼CEO发表了长达两小时的主题演讲,扔出了一系列产品,包括Blackwell Ultra版芯片,下一代芯片Rubin,要做AI开发操作系统的Dynamo,首款电光集成交换机CPO,更强大的个人超级电脑DGX,以及一系列机器人相关的模型和平台。
这些发布,性能依旧惊人。
总体来看,最核心的硬核发布包括:
1)Blackwell Ultra超级芯片:专为“AI推理时代”打造,性能比上代提升1.5倍,在DeepSeek R1模型上每秒处理1000个tokens,响应时间从1.5分钟缩至10秒。黄仁勋直言“买得越多,赚得越多”。与Hopper相比,为数据中心创造50倍收入潜力。
2)Vera Rubin下一代芯片:计划2026年底推出的下一代超级芯片,内存容量是Grace的4.2倍,带宽提高2.4倍,88个CPU核心性能翻倍,配备288GB高带宽HBM4内存。黄仁勋还预告2027年推出Vera Rubin Ultra和2028年的“费曼”芯片。
3)Dynamo推理框架:黄仁勋称其为“AI工厂的操作系统”,这一开源框架能协调数千GPU通信,通过“分离式服务”分别优化模型思考和生成阶段,最大化资源利用率,与Perplexity达成合作开发。
4)DGX个人AI超级电脑:推出Mac Mini大小的DGX Spark(3000美元)和更强大的DGX Station,前者提供1000万亿次/秒AI算力,128GB内存;后者搭载GB300芯片,提供20拍计算性能和784GB内存。多家合作伙伴将推出兼容版本。
5)Isaac GROOT N1机器人基础模型:首个开放式人形机器人基础模型,能轻松掌握抓取、移动等复杂任务。配套推出仿真框架和蓝图工具,以及与谷歌DeepMind、迪士尼合作开发的Newton物理引擎。黄仁勋宣称“通用型机器人时代已经到来”。
Token经济学+AI工厂:DeepSeek带来的推理红利,英伟达都会吃掉
和过往多次激动人心的演讲不同,今年GTC主题演讲可能是黄仁勋多年来第一次需要“回答”问题,而非完全由他设定议题的一次——
在DeepSeek R1引发的冲击后,英伟达近年来少有的被市场质疑:是否随着算力进入推理时代后,它代表的规模化不再成立。所有人期待黄仁勋给出回答,而且就在主旨演讲前,英伟达股价开始下行,最终也以下跌收盘。
这也是贯穿当天演讲的核心。
黄仁勋的解法是:
他比所有人都更加激进地强调推理的重要性,并且通过通俗易懂地解释以及各种英伟达真实数据和产品路线图,来证明一件事——推理时代对计算的要求反而更加高,而已经领先的英伟达会继续领先下去。
“两年前ChatGPT开始,我们经历了各种技术的创新和进步,终于到了推理的时代。AI会思考和推理,能解决更多的问题。Scaling Law从一个变成了三个。”黄仁勋说。
言下之意,AI向推理阶段的转移不是scaling law的结束,反而是因为Scaling law比人们预期的发展更快,进入了这个新的阶段。
“关于扩展定律(scaling law)和算力,去年全世界几乎都预测错了。AI的扩展定律比我们想象的更具影响力,极大加速了计算需求的增长。实际上,如今的算力需求比我们去年预估的高出了100倍。”
黄仁勋解释道,过去AI主要依赖经验和预训练数据进行学习,并能一次性完成推理演示。而现在的AI系统采用"思维链"(Chain of Thought)技术进行逐步推理。不再只是简单地预测下一个token,而是生成完整的推理步骤,每个步骤的输出都会作为下一步的输入,使得处理单个查询所需的tokens数量增加了约10倍。
同时,为了保证用户体验和交互性,避免用户因AI“思考”时间过长而失去耐心,系统需要以10倍的速度处理这些额外增加的tokens。因此,10倍的tokens量乘以10倍的处理速度要求,导致总计算需求增加了约100倍。此外,训练这些复杂推理能力需要通过强化学习处理数万亿级的tokens,进一步推高了算力需求。
“我认为计算有一个最终的难题,就是推理(inference)。之前所有人都以为它很简单,但其实并不是。”黄仁勋说。
他直接把推理上升到了最终极挑战的地位,而这个挑战需要复杂的系统化的能力来解决,这只有英伟达可以。
黄仁勋还用了一个demo来对比传统LLM与推理增强型模型的不同,其中推理模型他选择了DeepSeek。
这个例子里,两个模型要为婚宴安排座位。这直观展现了两者在复杂约束条件下(包括父母与姻亲不能相邻、摄影效果最佳化、新娘的特殊要求以及牧师的加入)的不同解法。
Llama 3.3 70B采用"一次性"方式,快速生成了439个tokens的回答,虽然响应迅速但结果错误,等于产生了439个"浪费的tokens"。而DeepSeek R1则启动了深入的思考过程,生成8,559个tokens,它尝试了多种可能的情境,并反复检验自己的答案,最终得出了正确解决方案。
从图表中可以清楚看到,相比传统LLM,推理模型的tokens生成量增加了20倍,计算资源需求更是高出150倍。这一演示直观展示了现代AI为何需要更强算力——推理过程依赖大量token的处理与生成,而每生成一个token都需要加载整个万亿级参数的模型。“这就是为什么高速互连技术(如NVLink)变得如此重要——它能支持这种大规模数据移动,使AI‘思考’成为可能。”
除了技术上的展示,他更想要的是对客户和市场展示信心,对此,他再次化身最强销售,他给出的答案也可以简单总结为一个公式:
Token经济学+AI工厂= 推理时代依然利好英伟达
黄仁勋从开场的视频到最后,都在强调一件事:今天从自动驾驶,到生成式AI,一切的根源都是token,而产生这些token的根源是英伟达。
这是黄仁勋一直在讲述的token经济学,当AI变成一切生产力提升的根源,token就成了最根本的单位。如何让每个生成的token都划算,就是今天所有企业要关心的事情。
今天,电脑的地位彻底发生改变,以往它是软件提取信息的地方,现在它是产生Token的地方,它是AI工厂。而作为一个工厂,就要计算投入产出比。黄仁勋把AI输出的token认为是成本,而每个用户能够获得的token则是收益。
纵轴是作为AI工厂的输出,计量单位是每兆瓦生成的TPS(每秒touken数),横轴是用户得到的TPS。一个曲线能在横轴和纵轴都扩张,你的收入就越多。
而横轴更高的同时纵轴越低的话,你就能越赚钱。
而英伟达的产品,在不停推动着这个赚钱曲线的实现。
黄仁勋在图里直接对比了Blackwell 与 Hopper:一个1兆瓦的Hopper数据中心每秒可产生约250万tokens,而采用相同功耗的Blackwell系统(结合NVLink 72、FP4精度和Dynamo系统),性能可提升25倍。特别是在推理模型上,Blackwell的表现更为出色,性能比Hopper高出40倍。
“当Blackwell开始大量出货时,你基本上送给别人Hopper都不会要。”他笑着说:”别怕,Hopper在某些情况下还是可以的……这是我能对Hopper说的最好话了。”
这么说显然对Hooper这个还在销售的产品线是巨大打击,他开玩笑说,自己变成了“首席财务摧毁官”。
在比较100兆瓦AI工厂时,黄仁勋指出,基于Hopper的工厂需要45,000个芯片和1,400个机架,每秒产生3亿tokens,而Blackwell则需要更少的硬件实现更高的性能。虽然Blackwell单价可能更高,但其计算效率的提升使AI工厂在长期运营中节省更多成本。
“基本上你买得越多,省得越多!不,甚至比这更好——买得越多,赚得越多!”这句经典的黄仁勋数学,再次用在了推理时代。
这一切都利好英伟达,AI的投资会继续,即将达到万亿美元的拐点。
“我之前说过,预计到2028年,数据中心的建设将达到万亿美元规模,而我非常确信我们很快就会达到这个目标。”
市场的高预期下,把货“卖”到了2027年
具体来看此次黄仁勋带来的新产品的最新细节。
NVIDIA Blackwell Ultra:
它是 NVIDIA Blackwell新一代版本——NVIDIA Blackwell Ultra。Blackwell Ultra专为“AI推理时代”设计,这类技术随着DeepSeek R1的推出而进入主流。
Blackwell Ultra基于去年推出的Blackwell架构打造,包括两大核心产品:GB300 NVL72机架式系统和HGX B300 NVL16系统。GB300 NVL72的AI性能比上一代提升了1.5倍,而与使用Hopper架构的数据中心相比,收入潜力提高了50倍。
黄仁勋表示:“AI已经实现了巨大飞跃:能进行推理和自主行动的AI需要成倍增长的计算性能。我们专为这一时刻设计了Blackwell Ultra,这是一个多功能平台,可以轻松高效地完成预训练、后训练和AI推理。”
GB300 NVL72在一个机架式设计中连接了72个Blackwell Ultra GPU和36个基于Arm架构的Grace CPU。有了这个系统,AI模型可以利用更强大的计算能力探索不同的问题解决方案,将复杂请求分解为多个步骤,从而提供质量更高的回答。
根据英伟达的说法,GB300 NVL72系统在运行DeepSeek的R1人工智能模型时,每秒能处理1000个tokens,而使用老款Hopper芯片时只能每秒处理100个。这一升级意味着实际使用中,GB300 NVL72只需约10秒就能回答用户问题,而Hopper则需要1.5分钟才能完成同样的任务。简单来说,新一代Blackwell Ultra系统比旧款Hopper系统快了近9倍,是一次质的飞跃。
这款产品也将在英伟达的DGX Cloud平台上提供,这是一个端到端的全托管AI平台,通过软件、服务和专业知识优化性能。而使用GB300 NVL72设计的DGX SuperPOD系统则为客户提供了一站式的“AI工厂”。
HGX B300 NVL16系统在处理大型语言模型时速度比上一代快11倍,计算能力提高7倍,内存容量增大4倍,足以应对最复杂的AI任务,如高级推理。
Blackwell芯片目前已全面投产,据称,这是英伟达历史上最快的产能提升。在最近一个季度中,Blackwell为英伟达贡献了110亿美元收入,占公司总收入393亿美元的近三分之一。
下一代AI“超级芯片”Vera Rubin:
截至今年1月的2025财年,英伟达销售额实现了惊人的翻倍增长,达到1246.2亿美元。这主要归功于两方面:Hopper芯片的持续热销和Blackwell芯片的早期订单。
要保持这样的增长势头,英伟达必须推出让客户“钱花得值”的新一代芯片。这意味着新芯片需要在速度更快、耗电更少、总拥有成本更低等方面超越上一代产品。
黄仁勋首次展示了下一代Vera Rubin AI超级芯片,这款产品以以暗物质研究先驱天文学家Vera Rubin命名,预计将于2026年底推出。这款芯片延续了前代产品的设计理念,采用CPU(Vera)和GPU(Rubin)组合架构。
主要升级包括:内存容量是Grace的4.2倍,内存带宽提高2.4倍,88个CPU核心提供比Grace Blackwell两倍的整体性能,以及Rubin GPU中的288GB高带宽内存4(HBM4)。
“基本上所有东西都是全新的,除了机箱,”黄仁勋说道。
黄仁勋还预告了2027年的后续产品:Vera Rubin Ultra,这款产品将采用Rubin Ultra GPU,将四个GPU合并为一个单元。
市场的预期之高,英伟达需要把2027年的货提前透露给大家看。
黄仁勋表示,AI正处于“拐点”,预测到2028年数据中心收入将达到1万亿美元。英伟达代号为“费曼”(Feynman)的下一代AI芯片将于2028年亮相。
Nvidia Dynamo:AI工厂的操作系统
黄仁勋发布了开源推理框架Dynamo,用于加速和扩展AI推理模型。黄仁勋称之为“AI工厂的操作系统”,并解释说这个名字来源于工业革命中的第一个关键发明—发电机(Dynamo)。
Dynamo专为部署推理型模型的“AI工厂”设计,帮助最大化产出效益。它能协调和加速成千上万GPU之间的通信,并采用“分离式服务”技术,在不同GPU上分开处理大语言模型的“思考阶段”和“生成阶段”。这样每个阶段都能针对特定需求进行独立优化,确保GPU资源得到最充分利用。
黄仁勋透露,英伟达正在与“最喜欢的合作伙伴”之一Perplexity合作开发Dynamo。“非常喜欢他们,不仅因为他们做的革命性工作,还因为Aravind是个很棒的人”
DGX Spark、DGX Station:家用“AI超级电脑”
黄仁勋还带来了面向个人用户的“AI超级电脑”——DGX Spark和DGX Station。两款设备都采用了Grace Blackwell平台,为用户提供本地运行大型AI模型的能力,而无需持续连接数据中心。其中较小的Spark版本现已开放预订。
DGX Spark是英伟达今年在CES展会上以“Digits”为名发布的那款Mac Mini大小的“世界最小AI超级电脑”,售价3000美元。而更大的DGX Station则面向“AI开发者、研究人员、数据科学家和学生,用于在桌面上原型设计、微调和运行大型模型”,目前尚未公布价格。
Spark搭载了英伟达的GB10 Blackwell超级芯片,配备第五代Tensor核心和FP4支持。提供“高达1000万亿次每秒(TOPS)的AI计算能力,足以微调和运行最新的AI推理模型,包括英伟达Cosmos Reason世界基础模型和NVIDIA GROOT N1机器人基础模型”。Spark配备128GB统一内存和最高4TB的NVMe SSD存储。
体积更大的DGX Station容纳了英伟达刚刚发布的更强大的GB300 Blackwell Ultra桌面超级芯片,“提供20拍(petaflops)的AI性能和784GB统一系统内存”。
英伟达还宣布OEM合作伙伴将推出自己版本的DGX设备:华硕、戴尔、惠普、Boxx、Lambda和超微将打造自己的DGX Station,将于今年晚些时候上市。华硕、戴尔、惠普和联想将推出DGX Spark版本
英伟达并非唯一打造具有大统一内存、可用于本地大语言模型的GPU厂商。AMD也推出了Ryzen AI Max+ “Strix Halo”芯片。这些设备的出现,意味着强大的AI计算能力正从云端走向家庭和个人,为普通用户提供了本地AI运算能力。
黄仁勋还宣布了对其网络组件的更新,以便将数百或数千个 GPU 连接在一起,使它们作为一个整体协同工作同时,英伟达在网络技术方面也取得了进展,推出了基于光子学的Spectrum-X和Quantum-X交换机,提升了数据中心GPU互联的效率和可扩展性。
小机器人Newton:
此外还有英伟达与谷歌DeepMind和迪士尼研究院合作,专为开发机器人而设计Newton开源物理引擎。
在介绍NVIDIA与DeepMind、Disney和NVIDIA联合研发的机器人Newton时,演示视频忽然中断。熟悉GTC节奏的人都知道,那味儿又来了。
“怎么回事,我们只剩两分钟了,我需要跟真人说话。”黄仁勋故作焦急地来回踱步,“什么,正在重新调整架构,那是什么意思....”话音刚落,Newton机器人Blue就从舞台一侧缓缓升起。随后一边发出电影里那样古灵精怪的机械声,一边摇头晃脑地走到了黄仁勋身边,全场爆发出掌声与笑声。
“告诉我这是不是很惊人!嘿Blue,你喜欢你的新物理引擎吗?触觉反馈、刚体和软体模拟,实时物理计算。我敢打赌你喜欢!”黄仁勋特别指出,现场观众看到的一切都是实时模拟,这将是未来机器人训练的关键方式,并透露Blue内部搭载了两台NVIDIA计算机。
而Blue也与黄仁勋互动,跟着做出点头、摇摆的回应,并听从他的指挥站到旁边。这也是整场发布和演讲中,难得的轻松时刻。
今天是个疯狂的时代,英伟达可以把芯片的架构更新提高到一年一次,但即便如此,人们的胃口似乎依然没有得到满足。
黄仁勋似乎也对此有些不爽,在演讲里,他略微吐槽到:
“我们发布了新东西,但人们马上会说好的,接下来呢?这对任何公司都不正常。”他说。
“毕竟这不像买个笔记本电脑,我们需要有计划,土地,能源,我们的人的部署,这都需要提前几年做计划。所以我们可能不能让你很吃惊,但一切都在按照计划进行。”
0 条评论
请「登录」后评论