Reflection 70B AI 模型被曝第三方基准测试效果不佳-品玩

品玩9月11日讯，据 venturebeat 报道，上周推出的号称可与顶级商业大模型一较高下的开源大模型Reflection 70B今日被曝在第三方测试中表现不佳。

上周末独立的第三方评估人员和开源人工智能社区成员在 Reddit 和 Hacker News 上发帖，开始质疑该模型的性能，并表示无法自行复制。有些人甚至发现了一些回复和数据，表明该模型与 Anthropic 的 Claude 3.5 Sonnet 模型有关，也许只是一个薄薄的 “包装”。

在独立的人工智能评估机构Artificial Analysis在X上发布其对Reflection 70B的测试结果比HyperWrite最初声称的得分低得多之后，批评的声音越来越多。

Reflection 公司联合创始人兼首席执行官 Matt Shumer对此表示道歉，并表示这些差异归咎于模型上传到 Hugging Face 的过程中出现的问题，并承诺在上周修正模型权重，但至今仍未做到。