中国大模型“六小虎”开年迎战DeepSeek：落地商业化才是最深的护城河-品玩

2025 年开年，DeepSeek 的爆火出圈，在中国大模型领域掀起了层层冲击波。

自 1 月 20 日 DeepSeek-R1 模型正式发布以来，DeepSeek 的应用在全球范围内掀起了下载热潮。据 Sensor Tower 数据显示，DeepSeek App 在上线的 18 天内累计下载量已突破 1600 万次，这一数字较 ChatGPT 首次发布时的 900 万增长了近 80%，其日活迅速突破 2000 万，超越了豆包、Kimi、智谱清言等一众大模型 ToC 应用。

在技术圈内，DeepSeek 同样引发热议，图灵奖得主、Meta 首席 AI 科学家杨立昆，斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任吴恩达等多位技术专家纷纷对 DeepSeek 新模型表示认可。在开源社区 GitHub 上，DeepSeek-V3 狂揽 8.25 万个 star，对标 OpenAI o1 的 DeepSeek-R1 的 star 数也已达 7.17 万，而OpenAI 最热门的开源项目 whisper 的 star 数仅 7.6 万。

这匹毫无疑问的黑马，给国内头部大模型公司“六小虎”们抛下了一个不得不回答的问题：为什么是 DeepSeek？“小虎”们的竞争力在哪里？

零一万物出招：抱紧阿里云加速产业大模型落地苏州

从近期的动向来看，零一万物算是最为直接做出回应的小虎之一。近日，零一万物宣布与中细软集团、超媒体集团（原现代传播集团）、创新奇智、倍漾量化、呈元科技、穹彻科技、随锐科技等企业在苏州共同成立产业大模型基地，打造制造、金融、医疗、政务等多个领域的行业大模型解决方案。

苏州市副市长毛伟（左二），苏州高新区党工委书记、虎丘区委书记宋长宝（左一），零一万物 CEO、创新工场董事长李开复博士（右二），零一万物联合创始人马杰（右一）在零一万物产业大模型基地授牌仪式现场

这与其年初的转型发声一致。李开复此前在接受媒体采访时曾对外讲述了零一万物的内部转型路径，提前变道规划了至少半年。

2024 年 5 月：评估和探索模型轻量化兼具顶级性能的路径。发布 Yi-Large 后，零一万物内部对 Scailing Law 的边际收益递减进行推演，最终决定放弃训练原定万亿参数的超大模型 Yi-X-Large，而转为训练更具商业落地前景的混合专家模型 Yi-Lightning。

2024 年 10 月：千亿参数模型 Yi-Lightning 对外发布。其在 LMSYS 总榜上取得世界第六、中国第一的排名，超过了 GPT-4o-2024-05-13，据零一万物介绍，Yi-Lightning 推理速度快于 GPT-4o 的同时，模型价格仅为 GPT-4o 的 1/30。

2025 年 1 月：零一万物与阿里云成立产业大模型联合实验室。轻量化模型的技术路线得以验证后，零一万物的商业落地进程不断加速。今年年初，零一万物宣布与阿里云成立产业大模型联合实验室，补强自身超大参数模型的布局的同时，正式宣布聚焦参数适中、性能领先、推理速度快、推理成本低的轻量化模型，以产业大模型发力商业落地。一个月之后，零一万物再次宣布产业大模型基地落地苏州。

2025 年 2 月：零一万物与苏州高新区联合成立的产业大模型基地正式授牌，聚焦制造、金融等领域。零一万物联合创始人马杰现场一次性公布了七个产业大模型计划，以此作为零一万物产业大模型基地的首批重点落地领域：

与中细软集团合作，共建知识产权大模型；

与超媒体集团合作，打造彭博商业周刊中文版大模型；

与创新奇智合作，瞄准制造场景研发制造大模型；

与倍漾量化合作，聚焦产业大模型在金融领域落地；

与呈元科技合作，推进生物大模型探索；

与穹彻科技合作，共同打造具身智能大模型；

与随锐科技合作，共同开发视频会议大模型。

值得一提的是，此次产业大模型基地合作伙伴名单中，如创新奇智、倍漾科技、呈元科技、穹彻科技、随锐科技均为创新工场被投企业，随着各地政策重注大模型应用，像零一万物+创新工场此类兼具技术与商业场景的组合或将吸引各地政府基金的关注。

在这股生成式 AI 浪潮中，多地政府已然敏锐地洞察到大模型的关键意义与价值。从融资维度剖析，政府基金已逐步成长为大模型领域独角兽企业的重要资金来源；商业落地方面，“政策驱动” 与 “场景驱动” 已成为大模型商业落地的两大核心要素。当大模型公司在政策、资源以及市场准入等多方面收获便利之后，它们便能够顺利切入制造、政务、医疗等关键公共服务领域，挖掘出更为丰富的应用场景，并借此积累真实场景数据，最终带来商业价值的回报。

2025 最大“黑马”DeepSeek来了，大厂小虎如何应对？

2025 年开年以来，DeepSeek 以黑马之姿让基座模型的技术竞赛更加红海和头部化，据传几个大厂和大模型小虎们技术团队加班加点，蛇年春节都能没好好过。一个大家关心的话题是：经过 2024 年不断收敛，本来字节＋阿里＋六小虎的格局基本稳定，不料 DeepSeek 来了，原本的头部玩家们怎么接招？

我们先看看 DeepSeek 的打法。

从融资侧看，近期投资圈的梗无疑是“你当初为何错过 DeepSeek”，真相是这个梗有点“自作多情”：DeepSeek 自 2023 年诞生起就没启动融资，本质是“初创＋隐形大厂”打法——虽然 DeepSeek 是初创公司，但其背后所背靠的正是资源量不亚于大厂的量化巨头幻方，源源不断地为 DeepSeek 供给资金、芯片等等巨量资源支持，这也让 DeepSeek 有底气做“纯投入不计商业回报”的打法追求 AGI。

2025 年已经是中国大模型“商业化拷问之年”， DeepSeek 过往两年的成长路径对资源有限且今年“无大腿可抱”仍需单打独斗的初创公司而言，已经毫无“复制性”。

从基座模型侧性能看，2024 年 12 月以来，智谱AI、月之暗面、阶跃星辰、百川智能则相继推出了自身对标 OpenAI o1 的推理模型，MiniMax 也开源了其全新 MiniMax-01 系列模型。其中，月之暗面更是几乎与 DeepSeek 同时发布了其推理模型 K-1.5。虽然榜单上各自“好看”，但没有一家获得足以匹敌 DeepSeek-R1 的行业声誉和破圈的声量。

从模型训推成本看：2024 年 10 月至今，仅有 DeepSeek 和零一万物两家对外公开过训推成本。DeepSeek-V3 六千多亿参数性能对标 GPT-4o-2024-05-13，训练成本仅为 557.6 万美元；早于前者两个月发布的零一万物 Yi-Lightning 参数量为千亿级别，训练成本为 350 万美元左右，于国际权威盲测榜单 LMSYS Chatbot Arena 总榜上同样超越 GPT-4o-2024-05-13，且 Yi-Lightning 的推理速度远快于 GPT-4o，模型价格仅为 GPT-4o 的 1/30（输入输出按 3:1 计算）。

从应用角度来看，DeepSeek 爆红之后一度让其 API 和 ChatBot 成为现象级产品，据 AI 产品榜数据显示，DeepSeek 2025 年 1 月活跃用户为 3370 万，远远超越了 Kimi 的月活用户数（1943万）；另 QuestMobile 数据显示，DeepSeek 的日活跃用户数在 1 月 28 日超越了豆包的约1695万，随后在2月1日突破 3000 万大关。重注 API 和 ToC ChatBot 赛道且投入惊人的字节跳动和月之暗面，或将被敲响警钟。大力投放所获得的用户是否值得、如何保护自身产品用户心智是亟待解决的问题。

加速商业化、构建生态将是大模型公司最强护城河

客观来看，尽管同为中国大模型初创公司，但是“六小虎”与 DeepSeek 的企业定位却完全不同。

依托背后幻方量化的持续输血，DeepSeek 得以大胆启用缺乏经验的年轻技术人才，搭配大量算力、资金资源投入，以此来追求突破性的技术创新。从 2024 年 2 月首次提出 GRPO（Group Relative Policy Optimization）、2024 年 5 月提出 MLA（Multi-head Latent Attention），再到此次集合多项创新，探索纯强化学习训练路径，推出了令人惊艳的 DeepSeek-R1 和 DeepSeek-R1-Zero，DeepSeek 已经取得了技术理想主义的初步成功。

但成功的另一面，DeepSeek 目前并未给出成熟的商业化变现路径。DeepSeek App 爆红之后，仍要面临着用户留存难和 Chatbot 应用变现难的问题；ToB 方面，DeepSeek 仅开放了 API 平台而并未有其他商业落地的新进展；由于采用开源策略，阿里云等头部云计算平台迅速完成了DeepSeek-V3、DeepSeek-R1 等模型的部署，DeepSeek 自身 API 平台的模型用量也被进一步分流。

可以说，背靠幻方量化的 DeepSeek 更像是非营利性科研机构而不是经营性公司。这也是“六小虎”们与 DeepSeek 的最大不同。

对于“六小虎”们来说，“以己之长攻彼之短”，发力模型商业化或许是面对 DeepSeek 技术挑战时另辟蹊径的发展策略。即便基座模型存在差异，但早早积累起的 C 端用户心智、B 端行业 Know-how 仍可称得上是壁垒所在。

另一方面，模型商业化也已经成为行业发展的大势所趋。随着模型性能的提升与推理成本的下降，2025年被视为中国大模型赛道的商业化拐点。中国大模型行业正由早期的预训练赛道向应用落地和商业模式优化转变。与“不计商业回报”的 DeepSeek 不同，“六小虎”们今年的决胜点将是大模型能力的商业落地。

目前，“六小虎”们在商业落地方面已经出现了明确的分野：

智谱AI：尝试 ToC，侧重 ToB，聚焦国央企定制化需求。百川智能：专注发力医疗领域，探索大模型技术在医疗领域落地的多种应用。阶跃星辰：仍在追赶基座模型，商业落地方面未有清晰路径。零一万物：聚焦ToB垂直场景，与阿里云合作发力产业大模型。月之暗面：聚焦 ToC 应用 Kimi，仍在探索商业变现途径。MiniMax：聚焦海外 ToC 应用，探索国内 ToC 变现路径。

目前看，零一万物提前半年变道更追求落地和商业化的打法已经有了初步成果：与阿里云成立“产业大模型联合实验室”，超大参数教师模型方面抱紧阿里，零一万物则基于自身技术积累与行业理解重注B端产业模型，目前与多家垂直行业头部企业合作构筑起“模型-产业-价值”的闭环，算是初步交上了一份答卷。与抱紧阿里云大腿的零一相比，仍然重注基座模型的其他小虎们所面临着的投入压力无疑会更大一些。

在开源模型性能不断提升的当下，六小虎要想筑牢自身发展的壁垒，就必须在垂直场景的精耕细作与技术差异化打造上持续发力，同时积极构建以自身为核心的创新生态体系，以此培养 “基于技术打造应用” 的能力，进而打造可持续造血的动力引擎。唯有如此，才能在激烈的行业竞争中走出一条适合自身的盈利之路。

而这，也将是面对“DeepSeek冲击波”最稳固的护城河。

另一个被敲响警钟的则是宣布进行“更长期、更基础 AGI 研究”的字节跳动。据媒体报道，字节跳动 2024 年 8 月以来组建了大模型研究院，陆续挖了不少顶尖的大模型人才加盟，成为行业关注焦点。时隔半年，DeepSeek 在基座模型与 ChatBot 均已在国内外取得出彩的成绩，而字节的豆包模型却仍未推出对标 OpenAI o1 的推理模型，垄断流量池所培养出的 ToC 应用豆包的日活日前也被 DeepSeek App 轻松超越。如上文所说，据 QuestMobile 数据显示，DeepSeek 在正式发布后不到两周，日活跃用户便超越了豆包的约 1695 万。

字节所选择的“慢下来、独立探索”的路径究竟成效几何，仍待时间检验。