品玩12月26日讯,据 Reddit 用户表示,DeepSeek 的最新 V3 版本模型已经意外泄露,在 API和网页端上出现,而该模型的榜单跑分结果也已出炉。
据悉,该模型目前在Aider多语言编程测试排行榜中的成绩已经超过了 Anthropic 的Claude 3.5 Sonnet,排名第二,仅次于 OpenAI 的O1 模型。据悉,DeepSeek V3 模型采用MOE 架构,参数规模达685B,同时支持 64K的 上下文窗口。
目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重。
0 条评论
请「登录」后评论