品玩

科技创新者的每日必读

打开APP
关闭

Reflection 70B AI 模型被曝第三方基准测试效果不佳

2024年9月11日

品玩9月11日讯,据 venturebeat 报道,上周推出的号称可与顶级商业大模型一较高下的开源大模型Reflection 70B今日被曝在第三方测试中表现不佳。

上周末独立的第三方评估人员和开源人工智能社区成员在 Reddit 和 Hacker News 上发帖,开始质疑该模型的性能,并表示无法自行复制。有些人甚至发现了一些回复和数据,表明该模型与 Anthropic 的 Claude 3.5 Sonnet 模型有关,也许只是一个薄薄的 “包装”。

在独立的人工智能评估机构Artificial Analysis在X上发布其对Reflection 70B的测试结果比HyperWrite最初声称的得分低得多之后,批评的声音越来越多。

Reflection 公司联合创始人兼首席执行官 Matt Shumer对此表示道歉,并表示这些差异归咎于模型上传到 Hugging Face 的过程中出现的问题,并承诺在上周修正模型权重,但至今仍未做到。

取消 发布

下载品玩App,比99.9%的人更先知道关于「开源大模型」的新故事

下载品玩App

比99.9%的人更先知道关于「开源大模型」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测