OpenAI 推出代码生成评估基准

科技动态 2024-08-14 2:08

OpenAI 推出了一个用于评估 AI 模型解决现实世界软件问题的基准 ——SWE-bench Verified，这是对原有 SWE-bench 的改进版本。这个基准旨在更可靠地评估 AI 模型解决真实软件问题的能力，随着 AI 系统越来越接近通用人工智能（AGI），对于评估它们的能力的要求也越来越高。

OpenAI 推出代码生成评估基准

本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途，内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

发表回复取消回复

OpenAI 推出代码生成评估基准

推荐阅读：

本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途，内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

发表回复 取消回复

发表回复取消回复