品玩4月21日讯,据techCrunch 报道,OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在严重的幻觉问题。
根据 OpenAI 的内部测试,o3 和 o4-mini比该公司之前的推理模型(o1、o1-mini 和 o3-mini)以及 OpenAI 传统的 “非推理 ”模型(如 GPT-4o)更容易产生幻觉。OpenAI 在其关于 o3 和 o4-mini 的技术报告中写道,“需要进行更多的研究”,以了解为什么随着推理模型的扩大,幻觉会越来越严重。
OpenAI 发现,o3 在回答 PersonQA 中 33% 的问题时产生了幻觉,而 PersonQA 是公司内部衡量模型对人的认知准确性的基准。这大约是OpenAI之前的推理模型o1和o3-mini出现幻觉率的两倍,o1和o3-mini的幻觉率分别为16%和14.8%。O4-mini在PersonQA上的表现更糟--48%的时间出现幻觉。

0 条评论
请「登录」后评论