距离OpenAI发布GPT-4.1仅仅过去两天,OpenAI在本周再次投下“重磅炸弹”——正式发布了其o系列的两个新模型:o3和 o4-mini。
这次发布的核心被OpenAI联合创始人Greg Brockman和首席研究官Mark Chen形容“向未来迈出的质的一步”。这两个新模型不仅在传统的编码、数学、科学等领域展现出“迄今为止最强”的推理能力,更重要的是,它们被训练成了能够主动、智能地使用和组合工具来解决复杂问题的“AI系统”,并且首次实现了“用图像思考”。
简单来说,你可以把o3和o4-mini想象成更聪明的“大脑”,它们不仅知识储备更丰富、逻辑更严谨,还学会了像人一样,遇到难题时知道去网上查资料(网页搜索)、用计算器(执行Python代码分析数据/文件)、看图表(视觉输入推理),甚至自己画图(生成图像)。这标志着ChatGPT向着一个能更独立自主完成任务的智能体方向迈出了关键一步。
新的o3、o4-mini及o4-mini-high将从即日起开始替换ChatGPT Plus、Pro和Team用户模型选择器中的o1、o3-mini和o3-mini-high。免费用户也有机会通过特定的“Think”选项体验o4-mini。开发者可通过API使用o3和o4-mini,OpenAI预计在几周内发布o3-pro。
那么,这两个新模型具体强在哪里?OpenAI官网和直播演示给出了详细解答。
o3:旗舰级推理引擎
具体到两个模型,o3 定位为OpenAI当前最强大、最前沿的推理引擎。它在编码、数学、科学和视觉感知等需要深度思考的领域表现尤为突出,是处理那些答案不明显、需要多方面综合分析的复杂查询的理想选择。
根据外部专家的严格评估,在处理困难的现实世界任务时,o3犯下的严重错误比其前代旗舰o1减少了20%,尤其在编程、商业咨询和创意构思方面进步显著。发布会上的例子令人印象深刻:o3不仅能分析物理学研究海报并推断出未明确说明的结果,还能将其与现有文献进行对比。
在另一个例子中,它甚至成功解决了构造一个特定性质的19次多项式这样的高难度数学问题,其推理过程和结果的准确性远超o1的表现。早期测试者也普遍反馈,o3作为“思考伙伴”时展现出的分析严谨性,以及在生物、数学、工程等领域生成和批判性评估新颖假设的能力,都令人印象深刻。在包括Codeforces、SWE-bench和MMMU等基准测试中创下了新的 SOTA。
o4-mini:高性价比的“小钢炮”
o4-mini 则是一款针对速度和成本效益优化的“小钢炮”。虽然体量更小,但它在数学、编码和视觉任务上实现了“令人瞩目的性能”,堪称“以小博大”的典范。它在AIME 2024和2025数学竞赛基准上的表现甚至超越了更大的模型。专家评估也指出,即使在非STEM领域和数据科学方面,o4-mini也优于其前代o3-mini。得益于更高的效率,o4-mini能够支持比o3显著更高的使用限制,这使其非常适合需要进行大量推理、高吞吐量的应用场景。同时,OpenAI表示,o3和o4-mini在交互时也应该感觉更自然、更像对话,能更好地利用记忆和上下文信息,并提供带有网络来源引用的、更可验证的回应。
值得关注的是,智能化程度的提升并未必然带来成本的增加。OpenAI强调,在许多实际应用场景中,o3和o4-mini可能比它们的前代o1和o3-mini更高效,甚至更便宜。官网展示的AIME数学竞赛成本-性能曲线清晰地表明,o3在相同成本下性能优于o1,而o4-mini则优于o3-mini。这背后,是OpenAI在强化学习规模化上的持续投入——据透露,开发o3所使用的训练计算量是o1的十倍以上,验证了“更多思考时间=更好性能”的趋势同样适用于强化学习。
在定价方面,o3的每百万输入 token 收费为 10 美元,输出 token 为 40 美元;而 o4-mini 的价格仅为其十分之一左右,分别为 1.1 美元和 4.4 美元。
不止于聪明,更在于“全能”
Agentic Tool Use是本次发布的亮点之一。过去的模型虽然也能调用工具,但往往是被动执行指令。而o3和o4-mini则被训练得能够思考何时以及如何使用工具来给出详尽、周到的答案。它们可以根据问题的复杂性,自主决定调用网页搜索获取最新信息、运行Python代码进行数据分析和预测、理解用户上传的图片内容,甚至生成图表或图像来辅助说明。
当用户提出“加州今年的夏季能源消耗与去年相比如何”这样的问题时,模型会自动搜索公共数据源,结合实时信息编写并执行分析代码,生成图表直观展示对比结果,并解释其中的关键影响因素,整个过程通常在一分钟内完成,体现出强大的搜索、推理与多模态协同能力。
直播中Greg Brockman还提到,o3在解决一个复杂任务时,曾被观察到连续调用了高达600次工具。
另一个突破是视觉理解能力。o3和o4-mini不再仅仅是“看到”图片,而是能将图像信息直接整合进它们的“思考链”中。用户可以上传白板照片、教科书图解、手绘草图,即使图片模糊、颠倒或质量不高,模型也能尝试理解。
更进一步,结合工具使用能力,模型可以在推理过程中动态地操作图片,比如旋转、缩放或转换图像,以更好地辅助分析。这使得它们在多模态基准测试中达到了新的SOTA(State-of-the-Art)水平,能够解决以前难以处理的视觉推理问题。例如,o3在MathVista(视觉数学推理)上准确率达到86.8%,在CharXiv-Reasoning(科学图表推理)上达到78.6%。
在演示中,OpenAI的Brandon McKenzie向o3展示了一张关于质子等矢标量荷的物理海报,并要求它找到研究结果并与最新文献对比,实际上该结果并未写在海报上。o3准确识别了相关图表,推理出计算方法,并联网查找最新估计值,指出原始数值需重整化才能与当前研究对齐,展现了其理解图像、推理及使用工具完成复杂科研任务的能力,节省了时间。
发布编程工具Codex CLI
伴随着能力的飞跃,安全问题也得到了前所未有的重视。OpenAI表示,他们为o3和o4-mini彻底重建了安全训练数据集,特别加强了在生物风险、恶意软件生成、越狱企图等敏感领域的拒绝能力。此外,还部署了系统级防护,引入了一个基于人类可解释规范训练的推理LLM监控器,用于主动标记生物风险等前沿风险领域的危险提示,据称在内部红队测试中成功标记了约99%的相关对话。依据其最新的《准备框架》(Preparedness Framework),经过严格评估,o3和o4-mini在生物化学、网络安全和AI自我改进这三个关键风险领域的能力水平均被认定低于“高”风险阈值。
为了进一步赋能开发者社区,OpenAI还推出了一个名为Codex CLI的实验性新工具。这是一个轻量级的编码助手,可以直接在用户的终端命令行运行,旨在充分发挥o3、o4-mini等模型强大的推理能力,连接本地代码环境,甚至支持处理截图或草图进行多模态编程。Codex CLI已在GitHub上完全开源。
在直播演示中,OpenAI Agent研究团队成员Michael为了展示Codeex CLI的功能,截取了一张在 X上关于一个“图像到 ASCII 风格转换”工具的推文截图。他将这个截图直接拖入终端,通过Codeex并利用o4-mini的多模态推理能力,最终成功创建了一个简单的ASCII风格图像转换工具。
新的发布之后,行业内的初步反响并非全然是掌声。一些观点仍然认为这次发布更像是仍然是增量式进步,虽然迭代速度更快了,但并未带来颠覆性的飞跃或震撼性新功能,这或许反映了整个AI行业在激烈竞争下面临的巨大“快速交付”压力。
同时,开源社区中也存在一些失望的声音,指出尽管模型能力日新月异,但OpenAI仍未推出真正强大的开源模型,这让部分期待开放生态的开发者发出了“Wake me up when they release something open”(等他们发布开源模型再叫醒我)的调侃。
在发布的技术光环之外,市场层面的动态也值得关注。发布会前后,彭博社和CNBC等媒体报道称,OpenAI可能正就以高达30亿美元收购AI编程工具初创公司Windsurf(前身为Codeium)进行谈判。Windsurf的产品利用AI辅助开发者编写、解释代码,其部分功能已集成OpenAI模型。若收购属实,无疑将极大增强OpenAI在开发者工具和代码生成领域的布局。
总体来看,OpenAI发布的o3和o4-mini,在Agentic能力和多模态深度融合方面继续迈近,这不仅仅是模型变得更聪明了,更是朝着能够真正理解并与我们复杂世界进行交互的“通用智能体”的一步。从发布节奏来看,OpenAI的再次提速,留给竞争对手和整个行业思考的时间,似乎又变少了。
0 条评论
请「登录」后评论