关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元398人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿里主动加码外卖大战,谁能笑到最后?

陆玖商业评论 浏览 1907

江汽集团董事长项兴初拜访华为任正非,进一步拓宽合作领域

财闻 浏览 168

记者:马竞与尤文谈妥先租后买签冈萨雷斯,交易只差西甲批准

懂球帝 浏览 428

杜兰特:超巨不在于名号而在于表现 我想一直打球直到再也打不动

罗说NBA 浏览 238

美军机沿伊朗边界飞行 伊朗寻求外交支持

新华社 浏览 132

这次结果如何?切尔西上次在1月换帅后拿了欧冠

懂球帝 浏览 177

40岁宋仲基带老婆参加友人婚礼,被误认成徐帆

丁丁鲤史纪 浏览 120

特朗普又来威胁伊朗:若达不成协议 或有坏事发生

财联社 浏览 98

哈梅内伊次子当选伊朗最高领袖 以色列扬言要"追杀"

国际在线 浏览 61

港股涨18%,淘宝闪购的“理性”胜利

DT商业观察 浏览 12489

最新!这家险资巨头,透露康养生态布局进展

券商中国 浏览 3706

男子收1300万元拆迁款后被控敲诈勒索获刑 终审无罪

极目新闻 浏览 264

稳步迭代,全面超越:vivo S50 Pro mini 评测:小直屏旗舰的进化标杆

快科技 浏览 173

重兵集结下美伊本周再谈 特朗普面临两个选择

澎湃新闻 浏览 77

王楚钦终于清白了!澄清恋爱谣言

詹妹侃体育 浏览 390

行业「寒风」尤劲,龙头企业华润三九能否「独善其身」

节点财经 浏览 1115

《罚罪2》40集:彭局弘市长判刑20年

影像温度 浏览 161

13.18亿大单!国网信通公告:子公司重大经营合同中标

红星资本局 浏览 5003

以军空袭加沙 特朗普:哈马斯不守规矩就会被消灭

新京报 浏览 273

痛惜!资深音乐人突发意外去世,很多人听过他的歌...

可乐谈情感 浏览 248

律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

大象新闻 浏览 112
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4