算力革命与效率革命并行
随着DeepSeek的横空出世,一场大模型的“效率革命”正在上演。通过优化模型架构与算法创新,DeepSeek成功实现了以更低的成本达到更优的性能,改变了AI竞争的游戏规则。然而,需要注意的是,这种效率提升并非意味着算力需求的减少。
DeepSeek本质上是对现有AI算法的效率优化,短期内可能会降低部分训练需求,但从长远来看,随着模型普及和应用场景的扩展,推理需求将显著增长。这种趋势类似于历史上的“蒸汽机效应”:蒸汽机的发明提高了单个机器的能源效率,降低了单位产出的煤耗,但在工业革命的推动下,机器应用规模大幅扩张,反而导致煤炭总消耗量的大幅上升。
AI领域也可能出现类似情况,模型效率的提升将推动应用的爆发式增长,进而拉动整体算力需求的进一步提升。因此算力作为AI发展的基石,其需求将长期保持强劲。
从训练到推理,算力就像一个看不见底的深渊,根据test-time compute scaling law,推理时间越长,模型表现越好,这意味着对算力的需求将呈指数级增长。近期,DeepSeek的火热导致服务器频繁崩溃的情况,也印证了即便是高效的模型架构,也无法绕开算力供给不足的硬约束。
放眼全球AI产业,云计算厂商正在加大对算力基础设施的投入。随着模型效率的提升,AI应用场景会进一步扩展,在这个背景下,解决了算力瓶颈,才可能在新一轮AI竞争中占据先机。
效率和算力并非此消彼长,而是相辅相成的关系。效率的提升降低了单位算力的成本,而充足的算力供给则为效率革命提供了坚实基础,在这场双轮驱动的革命中,真正的突破往往需要在两个维度上同时发力,缺一不可。
昆仑芯+百舸4.0,国产自研万卡集群来了
在全球AI算力竞争进入新阶段的当下,百度智能云近日点亮了昆仑芯三代万卡集群,这是国内首个正式点亮的自研万卡集群。
科技巨头的持续输出的AI支出
放眼全球,各大科技公司正在加速部署超大规模计算集群。Meta在2024年年初就已部署了搭载24576张H100 GPU的集群用于Llama 3的训练;xAI可能在Grok 3模型的训练中使用了10万张H100 GPU。亚马逊、微软和谷歌等科技巨头的集群规模也普遍维持在10万卡以上。近期,Meta、微软和谷歌纷纷等也纷纷表态将继续加大在算力基础设施上的资本支出,也印证了这一趋势。在当前阶段,万卡、超万卡级算力已成为支撑大模型发展的基础设施。
低成本、高性能已成为中国科技产业的内嵌优势。百度智能云自主研发的昆仑芯三代万卡集群,正是这一优势的集中体现,为中国AI产业的未来发展提供了重要的算力支撑。
具体到算力优势带来的成本降低,我们可以通过百度智能云已上架千帆ModelBuilder平台的DeepSeek-R1及DeepSeek-V3模型的价格进行直观感受,这种优势在市场上也得到了积极响应,仅在模型上线首日,就有超过1.5万家客户通过千帆平台进行了DeepSeek模型的调用。而在调用价格降低的背后,是百度智能云在推理引擎性能优化技术、推理服务工程架构创新以及推理服务全链路安全保障上的深度融合。
从产业发展看,芯片供应限制正推动中国AI产业寻求更多元的技术方案。国产万卡集群的实践,为行业积累了有益经验。这种探索也反映出,通过自主创新寻求突破已成为一个现实的选择,甚至可能是唯一的选择。正如中国工程院院士郑纬民所说,“构建国产万卡系统,虽然很难,但也很必要。”
“艰难但必要的突破”如何实现
建设超万卡集群面临多重技术挑战,并非简单的算力堆叠,而是要协调数万张计算卡高效运转,这涉及通信效率优化、能耗与散热平衡、系统稳定性保障等多个技术难点。在技术路径上,软硬件协同是关键,国产软件生态需要在编程框架、并行计算、AI编译器等多个层面进行优化,以充分发挥国产芯片性能。
百度在文心大模型的训练中已经积累了大规模集群经验,是国内首个使用万卡规模集群进行训练的大语言模型。百度智能云依托其升级的百舸AI异构计算平台4.0(以下简称“百舸平台”)在集群建设过程中实现了多项技术突破。
首先是通信效率的突破。想象一下,当数万张AI芯片需要同时交换数据时,如果没有高效的“交通系统”,就会造成严重的拥堵。百舸平台通过构建十万卡级别的超大规模HPN高性能网络,优化了数据传输的“路径规划”。针对跨地域通信中的高延迟问题,百舸平台采用了优化的拓扑结构、多路径负载均衡以及创新的通信策略,成功实现了数十公里的跨地域高效通信。特别是在处理跨地域通信时,通过先进的拥塞控制算法和集合通信算法策略,将带宽利用效率提升至95%,实现了完全无阻塞的数据传输。
更重要的是,系统能够在每10毫秒进行一次网络状态检查,这种超高精度的监控确保了网络的稳定运行。 据了解,百舸4.0在训练主流开源模型时,集群MFU(Model FLOPS Utilization,模型浮点运算利用率)可提升至58%,有效训练率达到98%。
其次是多芯片协同的创新。在实际应用中,不同类型的AI芯片就像是不同专长的工作人员,每个人都有自己的长短板。百舸平台能够智能地管理这些“人才资源”,将分布在不同地点、不同规模的异构算力统一调配,构建起一个高效的多芯资源池。不仅支持百度自研的昆仑芯,还兼容多种其他国产芯片,为构建异构算力集群提供了强大的技术支撑。当有新的计算任务到来时,系统会自动选择最合适的芯片来执行,就像一个经验丰富的经理,总能给对的人安排对的任务。这种智能调度使得万卡多芯混合训练效能达到了95%的高水平。
在稳定性方面,百舸平台建立了全面的故障预警和处理机制。在如此庞大的系统中,出现局部故障难以完全避免,关键是要能够快速发现和处理。百舸平台通过自动化的故障诊断系统,能够在第一时间发现并定位问题。特别是依托百度自研的BCCL(百度集合通信库),系统可以快速隔离故障部件并启动备用资源,将故障恢复时间从原来的数小时缩短到几分钟,确保了整个集群的持续稳定运行。
这些技术创新在实际应用中已经展现出成效。以长安汽车为例,采用百舸平台后,将原本分散的计算资源整合为统一的算力池,其算力使用效率提升到了90%以上,大幅降低了IT成本。生数科技的Vidu大模型,在百舸平台支持下,图像处理速度提升了3倍,数据读取速度提升了51倍。 这种效率的提升,使得Vidu能够在短时间内处理海量数据,为用户提供更流畅、更快速的图像生成体验。
百舸平台的技术突破,使得万卡集群实现了“多、快、稳、省”的目标。“多”体现在支持各类AI芯片协同工作;“快”体现在高效的数据处理能力;“稳”体现在可靠的运行保障;“省”则体现在显著降低的运营成本。这些进展不仅提升了大模型训练的效率。也为更多企业提供了可负担的AI创新基础设施。
高效的算力,高效的落地
百度智能云成功点亮昆仑芯三代万卡集群不仅是技术上的突破,更重要的是它为中国AI产业发展带来的实质性推动。百度万卡集群依托于国产自研的昆仑芯,能够为上层应用提供具性价比的算力支持,在当前基础模型层竞争日趋激烈的背景下,其成本优势将进一步凸显。
从实际应用效果来看,这种大规模算力集群正在多个维度影响产业格局,并带来降本增效的价值。
首先是显著提升了AI应用的开发效率。以千亿参数级模型为例,万卡集群可以大幅缩短训练周期,使企业能够更快地验证和迭代其AI应用。这种提速对于当前快速发展的AI市场尤为关键。特别是在处理多模态数据方面,充足的算力支持使得类似Sora这样的复杂多模态应用成为可能。
其次是推动了行业的降本趋势。通过动态资源切分技术,单个集群可以同时支持多个轻量化模型的训练,显著提升了资源利用效率。
更重要的是,万卡集群能够稳定供应算力资源,避免了因外部因素导致的断供风险,为企业的持续创新提供了可靠保障。
在实践中,这些优势正在得到验证,高效稳定的算力支持正在加速AI技术在各个领域的落地。上海交通大学利用这一基础设施,构建了AI for Science科学数据开源开放平台,率先实现了生成式人工智能与科研场景的结合。借助百度百舸平台的端到端优化能力,上海交大的科研人员能够更高效地进行模型训练和推理,加速科研成果的产出。在教育领域,好未来借助百舸平台成功开发了“九章大模型(MathGPT)”,广泛应用于好未来的智能硬件和多个业务场景,为用户提供更智能的学习体验。
随着国产大模型的发展,算力平台也在从“单任务消耗”向“集群效能最大化”演进。百度智能云昆仑芯三代万卡集群,通过智能调度和混合部署,将训练、微调、推理等不同类型的任务统一管理,进一步提升了集群的综合利用率。这种演进不仅优化了单位算力成本,也为更多中小企业提供了可及的AI创新基础设施。
当前,全球AI产业正处于关键发展期,算力供给的充足程度将直接影响创新的速度和广度。国产万卡集群的建成,为中国企业提供了一条可行的算力解决方案,有望加速AI技术在更多场景中的应用落地。
中国AI创新的新引擎
高效模型的涌现,AI产业的算力需求呈现出新的特点,虽然像DeepSeek R1这样的高效模型通过优化算法和架构提升了资源利用效率,但整体的算力需求仍在持续增长,只是增长的模式和特征发生了变化。
比如随着模型应用向多模态方向发展,处理视频、语音等复杂数据的需求不断增加,对算力提出了新的要求。另一方面,AI应用场景的多样化也推动着算力需求的分层发展,从数据中心到边缘计算,不同场景对算力的要求各不相同。
在这种背景下,万卡集群的价值正在发生转变。它不再仅仅是单纯的算力供给中心,而是进化成为一个支持多样化AI应用的智能计算平台。百度智能云的万卡集群以及即将点亮的3万卡集群,不仅是算力规模的简单扩大,更是中国在AI基础设施建设领域自主创新能力的体现。
这些成果的背后,是百度在大规模计算集群领域多年的技术积累。从最初的算力平台建设,到如今成功点亮万卡集群,百度不断探索软硬件协同优化的最佳实践,为推动AI技术的普及应用提供了有力支撑。
展望未来,随着量子计算、神经形态计算等新兴技术的发展,计算范式可能发生根本性改变。但在可预见的未来,大规模集群在训练复杂模型、处理海量推理需求方面的优势仍然不可替代。
中国AI产业正站在新的历史起点上,国产万卡集群的建设,为我们提供了强大的算力引擎,也为未来的技术创新开辟了更广阔的空间。真正的挑战在于如何让这些算力资源更智能、更高效地服务于不同场景的需求,而百度智能云正在这条道路上积极探索。
0 条评论
请「登录」后评论