品玩9月11日讯,据 venturebeat 报道,上周推出的号称可与顶级商业大模型一较高下的开源大模型Reflection 70B今日被曝在第三方测试中表现不佳。
上周末独立的第三方评估人员和开源人工智能社区成员在 Reddit 和 Hacker News 上发帖,开始质疑该模型的性能,并表示无法自行复制。有些人甚至发现了一些回复和数据,表明该模型与 Anthropic 的 Claude 3.5 Sonnet 模型有关,也许只是一个薄薄的 “包装”。
在独立的人工智能评估机构Artificial Analysis在X上发布其对Reflection 70B的测试结果比HyperWrite最初声称的得分低得多之后,批评的声音越来越多。
Reflection 公司联合创始人兼首席执行官 Matt Shumer对此表示道歉,并表示这些差异归咎于模型上传到 Hugging Face 的过程中出现的问题,并承诺在上周修正模型权重,但至今仍未做到。
0 条评论
请「登录」后评论