品玩2月19日讯,OpenAI 官方宣布,推出一款全新的大模型测试基准SWE-Lancer,主要用于评测大模型的编程能力。
据悉,该评测基准提供了1400多项软件工程任务,包括独立工程任务和管理任务。独立任务由经验丰富的软件工程师通过三重验证的端到端测试进行评分,而管理决策则根据最初聘用的工程经理的选择进行评估。
为了促进未来的研究,OpenAI开源了统一的 Docker 映像和公共评估拆分,即 SWE-Lancer Diamond。

OpenAI 推出大模型测试基准 SWE-Lancer
2月19日品玩2月19日讯,OpenAI 官方宣布,推出一款全新的大模型测试基准SWE-Lancer,主要用于评测大模型的编程能力。
据悉,该评测基准提供了1400多项软件工程任务,包括独立工程任务和管理任务。独立任务由经验丰富的软件工程师通过三重验证的端到端测试进行评分,而管理决策则根据最初聘用的工程经理的选择进行评估。
为了促进未来的研究,OpenAI开源了统一的 Docker 映像和公共评估拆分,即 SWE-Lancer Diamond。
下载品玩App,比99.9%的人更先知道关于「OpenAI」的新故事
下载品玩App
比99.9%的人更先知道关于「OpenAI」的新故事
0 条评论
请「登录」后评论