关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元200人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

展现燃油车新标准 吉利中国星“东方曜”系列首秀

网易汽车 浏览 149

亚马尔和网红参加节目时说皇马偷窃还抱怨,皮克表示同意

懂球帝 浏览 84

2月,特斯拉在华又拉了?

汽车公社 浏览 3877

今年秋冬的皮裙流行“剪一刀”,怎么搭都好看!

LinkFashion 浏览 83

蔚来法务部回应遭网络侵权:已报案并获法院判决支持

智车情报局 浏览 104

小法:温格和瓜帅最符合我的足球基因 如今也研究德泽尔比等教练

直播吧 浏览 4371

37岁李念官宣三胎,穿万元外套,肚大如箩气色红润

盖饭娱乐官方号 浏览 11142

黄仁勋,亲赴台积电“要产能”

华尔街见闻官方 浏览 896

尹锡悦被控同军方合谋试图“诱使朝鲜发动进攻”

扬子晚报 浏览 40

闭店风波后,实探“上上谦”仅存门店:薛之谦曾入股,周末用餐高峰仍需排队

时代周报 浏览 1087

零跑汽车10月销量破7万台

三言科技 浏览 49

柬埔寨拒引渡3名韩国籍"杀猪盘"头目回韩国:就地审判

红星新闻 浏览 71

美著名主持人发推:拜登曾称有“毁灭台湾计划”

枢密院十号 浏览 46042

欧盟人工智能法案再迎里程碑,企业违反义务最高罚款全球营业额7%

21世纪经济报道 浏览 7747

一汽-大众迈腾臻选款上市 售价17.49万元起

车质网 浏览 108

泡泡玛特新品MOKOKO未发售却被挂二手平台:价格翻4倍

封面新闻 浏览 246

小号普拉多 丰田兰德酷路泽FJ全球首发亮相

车质网 浏览 57

菲专家:马科斯是美国的喉舌 我有101%的把握

环球网资讯 浏览 20863

29.98万元起/新增2.0升动力 新款雷克萨斯NX上市

网易汽车 浏览 227

电动SUV成汽车制造商角逐新赛道,激烈竞争推动中国汽车出口繁荣

界面新闻 浏览 9926

迪马济奥:阿坎吉已抵达意大利,准备接受国米安排的体检

直播吧 浏览 209
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4