3月15日,AI创企Cognition对其团队发布的首个AI软件工程师Devin进行了技术解读,发布了关于Devin的SWE-bench基准测试技术报告。SWE-bench可以评估系统解决现实中代码库问题的能力。测试结果显示,Devin不需要人类辅助就可以解决570个问题中的79个问题,成功率为13.86%,高于SOTA 大模型(Claude 2)的4.80%。
暂无讨论,说说你的看法吧
3月15日,AI创企Cognition对其团队发布的首个AI软件工程师Devin进行了技术解读,发布了关于Devin的SWE-bench基准测试技术报告。SWE-bench可以评估系统解决现实中代码库问题的能力。测试结果显示,Devin不需要人类辅助就可以解决570个问题中的79个问题,成功率为13.86%,高于SOTA 大模型(Claude 2)的4.80%。
扫码打开当前页

山鲸AI丶鲸喜官
之前