品玩8月15日讯,据OpenAI 官方消息,OpenAI 宣布推出 SWE-bench Verified 代码生成评估基准,解决了此前的局限性问题,能够更准确地评估人工智能模型在软件工程任务中的表现。
SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 issue 描述的问题。
该基准使用两种类型的测试:
- FAIL_TO_PASS 测试用于检查问题是否已得到解决
- PASS_TO_PASS 测试用于确保代码更改不会破坏现有功能。
0 条评论
请「登录」后评论