千呼万唤始出来的 GPT 4.5，主打的只是一个“大”-品玩

“GPT系列不是我们前沿的模型。”

一个月前你还很难想象OpenAI发布GPT的下一个大版本更新时，会这样说自己。

但当2月27日OpenAI突然用一个直播发布了GPT4.5的时候，一切都已经发生变化。

GPT的定位不再是OpenAI用来震撼外界的模型，而是一个逐渐退到舞台后方的“底座”；

它的发布也不再是OpenAI引导行业叙事的大动作，而更多带上了防御的感觉；

这是GPT目前“最大”的一款，也是它在舞台中心的最后一舞。

GPT4.5的亮点简单总结，在于“更大，更暖”——OpenAI迄今最大、知识最丰富的模型。

根据OpenAI的介绍，GPT-4.5在多个方面超过了GPT-4o及其他许多AI模型。例如，在OpenAI的SimpleQA基准测试（该测试考察 AI 在处理简单、事实性问题时的准确度）中，GPT-4.5的表现优于GPT-4o和OpenAI的推理模型o1、o3-mini。

在测试编程能力的SWE-Bench Verified基准测试上，它与GPT-4o和o3-mini表现相当，但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在AI生成完整软件功能的能力上，它在SWE-Lancer上的表现超过了GPT-4o和o3-mini。

但与以往只会刷新榜单不同，这次OpenAI甚至在发布时就展示了自己在榜单中的差距——在一些学术基准测试比如AIME和 GPQA上，GPT 4.5 在数学和科学相关问题上处于领先水平，但在其他多个维度的评测上，不及DeepSeek和Anthropic的模型。当然，这么做还是因为，它自身开发的新一代推理模型依然在榜单里领先。

很明显，OpenAI给GPT4.5的定位不再是最强模型。基准测试也就不再是GPT4.5想要对外呈现的重点。

根据OpenAI的直播发布，它的亮点在其他地方，总结起来如下：

更暖，更少幻觉

GPT-4.5最引人注目的特性是“情商”的显著提升。

通过深度学习海量人类对话数据，它不仅能识别文本中的情绪（如愤怒、焦虑），还能解析情感背后的潜在需求，生成更具同理心的回应。

例如，当用户抱怨“朋友总是爽约”时，GPT-4.5不再机械地输出建议，而是优先提供情感支持，再引导理性解决方案，甚至通过鼓励性语言帮助用户调整心态。这种能力源于对语境和情感细微差别的深度解构，而非简单的关键词匹配。

知识广度与准确性的提升

通过无监督学习的规模化扩展（据OpenAI研究员称，它的预训练算力较GPT-4提升10倍，但这一点后来被官方从文档中去掉了），GPT-4.5的世界知识覆盖深度显著增强。

例如，在回答“海水为何是咸的”这类问题时，它能提供结构清晰、通俗易懂的解释，并主动补充科学不确定性，将“幻觉率”降至37.1%，远低于前代模型。

这种进步不仅体现在知识量上，更在于对用户意图的精准捕捉——例如，从“我需要减肥”中识别出隐含的健康管理需求，而非单纯推荐食谱。

多场景实用性的优化

GPT-4.5在写作、编程和日常问题解决中展现出更强的上下文连贯性。它可辅助生成创意文案、修复代码漏洞，甚至通过联网检索实时信息。

尽管在数学和编程等深度推理任务中提升有限（代码能力仅提升7%-10%），但其在依赖世界知识和创造力的领域（如设计、教育咨询）表现卓越。此外，多语言支持扩展至14种，低资源语言（如斯瓦希里语）的表现显著提升，进一步打破语言壁垒。

而在训练方面，OpenAI也强调了它训练方法的高效率和更大规模。他们使用了低精度训练，以及提升了跨数据中心的训练资源使用效率。

以上这些种种特点都难免让人想到DeepSeek。

作为一个强调逻辑推理能力的模型，DeepSeek R1却在文字表达上让人惊喜。而作为一个“知识型”模型，GPT4.5开始强调它的情感能力；

在训练上，GPT4.5“激进地”使用了低精度训练，而这几乎就是deepseek最初公布V3时引发外界震动的绝活之一；

OpenAI为了让GPT4.5“变大”，在预训练阶段使用了跨多个数据中心的计算设施来实现扩展，这也让人想到DeepSeek“起家”的技术，关于它自建的萤火集群的一系列跨数据中心的研究论文。

OpenAI称GPT-4.5会成为未来推理模型的基础模型，这也是V3与R1的关系。

在DeepSeek开源之前，OpenAI的口径还是GPT系列和o系列是两个不同系列的模型，而DeepSeek的详细论文解释了基座模型与推理模型的关系，并自然把竞争引向了OpenAI和Anthropic最近两个模型所体现出的模型融合的路线上。

当我们停下来看看，这一切的变化还是很神奇的：

一个月之前这一切都不会这样发生，现在每一个AI领域的重要动作，都多少笼罩在DeepSeek“阴影”之下。

甚至所有迹象都在显示这是一个OpenAI计划外发布的模型，它不能太强，超过它主打的o3，但它又必须发布，因为DeepSeek带来的这一波开源冲击，人人都知道了GPT系列和o系列的紧密关系，它需要证明它在基础模型上的进展，而不能只是用o系列来震撼大家了。

OpenAI这次发布继续“做实”了很多事情，比如曾经依赖数据和计算能力的扩展所带来的GPT系列的能力增强，正式结束了；它带来的o系列的计算时间扩展定律，正式成为接下来的行业主题；而GPT系列的意义从最前端的直接参与竞争的角色，变成比拼推理模型时的重要支撑。

GPT淡出了舞台中央，只属于它的时代结束了，接下来正式进入群雄竞争的推理时代。