“GPT系列不是我们前沿的模型。”
一个月前你还很难想象OpenAI发布GPT的下一个大版本更新时,会这样说自己。
但当2月27日OpenAI突然用一个直播发布了GPT4.5的时候,一切都已经发生变化。
GPT的定位不再是OpenAI用来震撼外界的模型,而是一个逐渐退到舞台后方的“底座”;
它的发布也不再是OpenAI引导行业叙事的大动作,而更多带上了防御的感觉;
这是GPT目前“最大”的一款,也是它在舞台中心的最后一舞。
GPT4.5的亮点简单总结,在于“更大,更暖”——OpenAI迄今最大、知识最丰富的模型。
根据OpenAI的介绍,GPT-4.5在多个方面超过了GPT-4o及其他许多AI模型。例如,在OpenAI的SimpleQA基准测试(该测试考察 AI 在处理简单、事实性问题时的准确度)中,GPT-4.5的表现优于GPT-4o和OpenAI的推理模型o1、o3-mini。
在测试编程能力的SWE-Bench Verified基准测试上,它与GPT-4o和o3-mini表现相当,但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在AI生成完整软件功能的能力上,它在SWE-Lancer上的表现超过了GPT-4o和o3-mini。
但与以往只会刷新榜单不同,这次OpenAI甚至在发布时就展示了自己在榜单中的差距——在一些学术基准测试比如AIME和 GPQA上,GPT 4.5 在数学和科学相关问题上处于领先水平,但在其他多个维度的评测上,不及DeepSeek和Anthropic的模型。当然,这么做还是因为,它自身开发的新一代推理模型依然在榜单里领先。
很明显,OpenAI给GPT4.5的定位不再是最强模型。基准测试也就不再是GPT4.5想要对外呈现的重点。
根据OpenAI的直播发布,它的亮点在其他地方,总结起来如下:
更暖,更少幻觉
GPT-4.5最引人注目的特性是“情商”的显著提升。
通过深度学习海量人类对话数据,它不仅能识别文本中的情绪(如愤怒、焦虑),还能解析情感背后的潜在需求,生成更具同理心的回应。
例如,当用户抱怨“朋友总是爽约”时,GPT-4.5不再机械地输出建议,而是优先提供情感支持,再引导理性解决方案,甚至通过鼓励性语言帮助用户调整心态。这种能力源于对语境和情感细微差别的深度解构,而非简单的关键词匹配。
知识广度与准确性的提升
通过无监督学习的规模化扩展(据OpenAI研究员称,它的预训练算力较GPT-4提升10倍,但这一点后来被官方从文档中去掉了),GPT-4.5的世界知识覆盖深度显著增强。
例如,在回答“海水为何是咸的”这类问题时,它能提供结构清晰、通俗易懂的解释,并主动补充科学不确定性,将“幻觉率”降至37.1%,远低于前代模型。
这种进步不仅体现在知识量上,更在于对用户意图的精准捕捉——例如,从“我需要减肥”中识别出隐含的健康管理需求,而非单纯推荐食谱。
多场景实用性的优化
GPT-4.5在写作、编程和日常问题解决中展现出更强的上下文连贯性。它可辅助生成创意文案、修复代码漏洞,甚至通过联网检索实时信息。
尽管在数学和编程等深度推理任务中提升有限(代码能力仅提升7%-10%),但其在依赖世界知识和创造力的领域(如设计、教育咨询)表现卓越。此外,多语言支持扩展至14种,低资源语言(如斯瓦希里语)的表现显著提升,进一步打破语言壁垒。
而在训练方面,OpenAI也强调了它训练方法的高效率和更大规模。他们使用了低精度训练,以及提升了跨数据中心的训练资源使用效率。
以上这些种种特点都难免让人想到DeepSeek。
作为一个强调逻辑推理能力的模型,DeepSeek R1却在文字表达上让人惊喜。而作为一个“知识型”模型,GPT4.5开始强调它的情感能力;
在训练上,GPT4.5“激进地”使用了低精度训练,而这几乎就是deepseek最初公布V3时引发外界震动的绝活之一;
OpenAI为了让GPT4.5“变大”,在预训练阶段使用了跨多个数据中心的计算设施来实现扩展,这也让人想到DeepSeek“起家”的技术,关于它自建的萤火集群的一系列跨数据中心的研究论文。
OpenAI称GPT-4.5会成为未来推理模型的基础模型,这也是V3与R1的关系。
在DeepSeek开源之前,OpenAI的口径还是GPT系列和o系列是两个不同系列的模型,而DeepSeek的详细论文解释了基座模型与推理模型的关系,并自然把竞争引向了OpenAI和Anthropic最近两个模型所体现出的模型融合的路线上。
当我们停下来看看,这一切的变化还是很神奇的:
一个月之前这一切都不会这样发生,现在每一个AI领域的重要动作,都多少笼罩在DeepSeek“阴影”之下。
甚至所有迹象都在显示这是一个OpenAI计划外发布的模型,它不能太强,超过它主打的o3,但它又必须发布,因为DeepSeek带来的这一波开源冲击,人人都知道了GPT系列和o系列的紧密关系,它需要证明它在基础模型上的进展,而不能只是用o系列来震撼大家了。
OpenAI这次发布继续“做实”了很多事情,比如曾经依赖数据和计算能力的扩展所带来的GPT系列的能力增强,正式结束了;它带来的o系列的计算时间扩展定律,正式成为接下来的行业主题;而GPT系列的意义从最前端的直接参与竞争的角色,变成比拼推理模型时的重要支撑。
GPT淡出了舞台中央,只属于它的时代结束了,接下来正式进入群雄竞争的推理时代。
0 条评论
请「登录」后评论