“模型会有很多,但应用才是王者。” 百度创始人李彦宏在Create 2025大会上直指AI产业重心。面对飞速迭代的大模型和开发者对应用价值持续性的普遍疑虑,他强调找对场景、善用模型工具的应用将超越模型本身。
与此同时,全球围绕AI的算力竞赛已进入白热化。科技巨头们动辄千亿美金级别的投入,以及“星际之门”等超大规模基础设施计划,预示着更强模型和应用突破的加速到来,AGI的讨论也日益升温。虽然DeepSeek等工程优化案例展示了效率提升的可能,但并未改变大规模算力是底层驱动力的现实。
然而,中国AI发展面临高端芯片供应与制造的现实瓶颈。这使得单纯复制海外“堆算力”模式面临挑战,如何在现有及可预见的算力资源下,通过系统性的优化和工程创新,最大化效率、降低成本,成为关键破局点。
正是在此背景下,百度在Create 2025上宣布文心大模型降价、基于自研昆仑芯P800的3万卡智算集群也宣告点亮等举措,可视为其对开发者的焦虑、降低AI应用门槛的回应。百度智能云事业群总裁沈抖提出的“应用即系统”和对“系统级智能基础设施”的强调,也点明了方向:必须将硬件、软件、平台、网络等作为一个有机整体进行深度协同优化,才能最大化整体效能。
极具吸引力的降价策略,背后需要坚实的技术支撑。百度智能云百舸AI异构计算平台在此次以“模型的世界,应用的天下 (Models lead, APPs rule)”为主题的大会上展示的变化,正是为了打通从“模型引领”到“应用为王”的链路。

AI时代的“基础设施之困”
当聚光灯打在层出不穷的AI应用上时,舞台之下,支撑这一切的基础设施正承受着前所未有的压力。大模型驱动的AI浪潮,不仅是算法和数据的胜利,更是对计算、存储、网络等底层能力的极限拓展。过去那种简单堆砌硬件、各环节独立优化的方式,在动辄千亿、万亿参数的模型和实时响应的应用需求面前,显得捉襟见肘。这正是“系统级”思维变得如此重要的原因。
首先遇到的就是规模与异构的考验。训练一个领先的大模型,往往需要动用成千上万块GPU或NPU,进行长达数周甚至数月的持续计算。这不仅是对算力“量”的需求,更是对“质”的要求。不同的计算任务(如训练、精调、推理)可能需要不同类型的处理器(CPU、GPU、NPU等)协同工作,即所谓的“异构计算”。如何高效地管理、调度这些海量且多样化的算力资源,使其像一个整体而非一盘散沙般运作,本身就是一道复杂的工程难题。
随之而来的是训练过程中的稳定性与效率难题。万卡级别的分布式训练,就像一次超长距离的精密接力赛,任何一个环节(单卡故障、网络抖动、软件Bug)的微小失误,都可能导致训练中断,前功尽弃,造成巨大的时间和成本损失。
当模型训练完成,推理部署环节的压力依旧不少,甚至更为直接地影响用户体验和商业可行性。AI应用需要快速响应用户请求(低延迟),同时服务大量并发用户(高吞吐),并且还要尽可能控制成本(高资源利用率)。这三者往往相互掣肘。特别是随着MoE(Mixture of Experts)等更复杂模型结构的出现,推理过程对资源的调度和优化提出了更高的要求。如何用更少的资源、更低的成本支撑更大规模、更高质量的推理服务,直接关系到AI应用能否真正“落地生根”。
最后,敏捷迭代与生态兼容也是不容忽视的一环。AI技术日新月异,企业需要能够快速试验新模型、调整策略、集成最新的开源成果。一个僵化、封闭、难以扩展的基础设施,会严重拖慢创新的步伐。
这些难题并非孤立存在,而是相互交织、彼此影响。单一环节的瓶颈,比如网络性能不足,会同时影响训练效率和推理延迟;资源调度不灵活,则会拉低整体利用率和迭代速度。因此,仅仅追求单点技术的领先已经不够,必须从“系统”的视角出发,将算力、存储、网络、调度软件、AI框架、乃至运维管理作为一个整体进行通盘考虑和协同优化。这恰恰印证了沈抖“应用即系统”的观点——只有系统级的智能基础设施,才能应对AI时代的复杂性。
要构建这样的系统级基础设施,需要从模型开发、应用编排到算力底座的全栈协同。在百度智能云的体系中,千帆平台承担了模型与应用层面的关键角色,而驱动这一切高效运行的,则离不开强大的AI算力引擎----这便是百舸AI异构计算平台发挥核心作用的地方。

不止于算力
具体来看,百舸AI异构计算平台实际上并非一个新概念,而是支撑百度自身包括百度文库、百度网盘在内所有核心业务AI能力运行的算力底座,如今也作为企业级的一站式AI工程平台,服务于广泛的行业客户。百舸的设计理念,从一开始就带有强烈的“系统工程”色彩,试图解决的正是单点优化无法克服的全局性问题。
要理解百舸,可以从它的几个核心能力标签入手,这些标签也恰好回应了AI基础设施的需求:
大规模 (Scale): AI的发展需要海量算力支撑。百舸平台具备支持构建和管理十万卡级别超大规模计算集群的能力,就像一座能容纳海量知识、并有无数阅览室供万人同时研究的超级图书馆。这不仅意味着理论上的承载力,更在实践中得到验证——例如近期点亮的3万卡昆仑芯P800集群,足以并行支持多个千亿参数大模型的全量训练,或同时满足上千个客户的百亿模型精调需求。这种规模化能力是探索模型能力边界的基础。
稳定 (Stability): 对于动辄需要运行数周的AI训练任务而言,稳定性压倒一切。这就像一场不能中断的超长马拉松,百舸通过软硬件协同优化,据称可实现高达99.5%的有效训练时长,意味着“选手”几乎全程在跑,极少因意外停顿。同时,分钟级的故障恢复能力,则像是赛道旁随时待命的“急救队”,一旦出现问题能迅速处理,让“比赛”继续,避免整个训练任务前功尽弃。
极速 (Speed): 在推理应用端,速度就是生命线。百舸优化后的推理响应速度达到5us(微秒)量级,快到什么程度?大约比你眨眼快数万倍,实现了实时的交互体验。同时,其HPN高性能网络架构,如同为数据传输构建了没有红绿灯的超宽高速公路网,确保在大规模集群内部,海量数据在不同计算节点间畅行无阻,这对训练加速和需要频繁“交流”的复杂模型(如MoE)至关重要。
高效 (Efficiency): 算力不仅要够用、稳定、快速,还要用得“划算”。百舸平台就像一个精明的“算力大管家”,通过精细化的资源调度、GPU虚拟化(把一张大计算卡“隔成”几张小的独立使用)、弹性混部(分时复用资源)等技术,努力确保每一份计算资源都物尽其用,不闲置。这是降低AI使用成本、推动应用普及的关键。
更重要的是,百舸并非仅仅是这些能力的简单叠加,而是将它们系统性地融合在一个平台之上。它不像攒机,买一堆零件组装起来就完事,那可能会遇到各种兼容和瓶颈问题。百舸更像是苹果设计iPhone或Mac的思路,从芯片(支持异构)、操作系统(资源管理与调度)到应用商店(AI工程工具链、存储、网络等),都进行了深度整合与优化,提供的是一个高度协同、开箱即用的整体解决方案。
可以说,百舸平台本身就是对“系统级智能基础设施”理念的实践。它试图构建一个强大、可靠且具备弹性的“AI引擎”,让开发者和企业能更专注于上层的模型创新和应用落地,而不必过度陷入底层基础设施的复杂泥潭。但面对AI技术和应用需求的飞速演进,这样的底座也需要不断进化。在Creat 2025大会上,百舸也宣布了最新的升级。

更“密”的硬件,更“省”的推理
在Create 2025大会上,围绕着提升AI基础设施的效率与密度,百度智能云展示了引人关注的硬件创新与平台优化,这两者都与百舸平台的能力息息相关。
硬件层面的一个重要突破,被称为“昆仑芯超节点” 。简单来说,就是把64张百度自研的P800 AI加速卡塞进了一个机柜。这样做主要是为了解决传统多机柜方案里,机器之间通信效率不高、成本也高的问题。通过让卡在机柜内部直接高速沟通,根据百度公布的数据,卡之间的互联带宽提了8倍,单卡训练性能高了10倍,推理性能则高了13倍。同时,把这么多算力塞一个柜子里,显然也更省地方了,百度甚至有个说法是“一柜顶百台机器”。
而在百舸平台内部,针对大模型推理的系统优化是大规模分布式PD分离推理系统。这个系统把推理过程拆分成处理输入(Prompt)和生成内容(Token)两个不同特点的阶段,然后为这两个阶段匹配更合适的计算资源,并进行精细的调度管理(比如动态调整资源比例、Token级别的负载均衡等)。
听起来复杂,但效果很直接,百度数据显示,这套系统能把推理成本降低95%,能同时处理的请求数量(吞吐量)增加20倍。这正好印证了沈抖之前提的“未来推理降本很重要”的看法。对需要大量跑推理服务的企业来说,这套系统能省下不少钱开支。
硬件层面的昆仑芯超节点与百舸的PD分离系统优化,分别从密度和效率两个维度,显著提升了AI算力基础设施的能力和经济性,让百舸在提供AI算力时,无论性能还是经济性上,都往前走了一步。

深入“行业场”
技术的迭代最终要看实效。百舸平台已经在不少行业合作中显现出价值。一个常被多次提及的案例是中国钢研
面对钢铁质检(如金相分析、表面缺陷检测)中人力成本高、效率低的问题,中钢研与百度智能云合作,基于昆仑芯和百舸搭建专属智算平台,并在千帆大模型平台上结合自身数据训练行业和专用模型,最终开发出能自动完成检测并生成报告的应用。这套算力、平台、模型、应用一体化的系统级方案,帮助钢研实现了产线提效超50%,质检人力节省超40%,关键指标准确率也达到95%以上。
类似的系统级能力也在其他领域落地。民生银行利用千帆平台和百舸算力进行大模型管理和应用开发,其“文心快码”等工具直接提升了研发效率,预估全面推广能年省两成以上人力成本。前沿探索方面,北京人形机器人创新中心研发“天工”机器人及其背后的具身智能平台,其复杂的模型训练和推理就跑在百度百舸提供的稳定算力之上。

同时,百舸的技术升级也在自身业务和合作伙伴处得到验证。百度智能云千帆平台正是利用了百舸的PD分离推理优化,才得以大幅降低DeepSeek等模型的服务成本,提升了吞吐和速度。招商银行则与百度智能云合作,成功部署了基于昆仑芯P800的大规模国产芯片集群,验证了其在金融场景下的稳定性和性能。而像好未来这样的公司,则通过百舸的资源调度能力,提升了集群资源利用率超过10%。
从重工业到金融,从前沿科研到互联网服务和教育,这些覆盖不同行业、不同规模企业的案例表明,百舸平台及其系统级能力正实实在在地帮助用户解决AI落地中的实际问题,无论是大规模训练、高效率推理、降低成本,还是拥抱国产化方案。这也显现了百舸的适用性,能支撑大企业的海量需求,也能满足创企的多样化需要。
AI的下一站
AI竞赛已从单纯的模型层面的比拼,转向应用落地和价值创造的深水区。这场转变中,底层基础设施的角色正从提供算力,演变为支撑复杂AI系统高效运行的“智能底座”。
未来,一个AI-Ready的基础设施,将不再仅仅是峰值算力或单点性能,而是其整体的系统效率、成本效益以及支撑应用快速迭代和创新的能力。具备软硬协同、全栈优化能力的平台无疑将更具竞争力。而最终的角力场,将是看谁能更好地帮助开发者跨越技术鸿沟,真正在千行百业的“行业场”中,用AI创造出实实在在的价值,这或许才是通往“应用的天下”的真正路径。
正如温斯顿·丘吉尔关于建筑的洞察:“我们塑造了建筑,而后建筑塑造了我们。”今日这些构建AI基础设施的尝试,不仅将承载未来的应用,更将深刻塑造未来AI应用的面貌和可能性的边界。
0 条评论
请「登录」后评论