关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元526人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白人女子被美国特工当街射杀 死前对峙说"我不生你气"

环球网资讯 浏览 269

最有种的女明星

江湖人称艾掌门 浏览 359

威胁要对盟国加征关税后 特朗普亲率代表团出席达沃斯

澎湃新闻 浏览 254

媒体:宗馥莉终于彻底告别宗庆后

每日经济新闻 浏览 510

吴磊大瓜牵扯多位明星!爆料女主骂赵露思骚扰吴磊,曝何猷君出轨

萌神木木 浏览 256

第二代腾势D9插混版亮相 搭载闪充技术

网易汽车 浏览 153

海军四川舰顺利完成首次航行试验

央视新闻客户端 浏览 268

卡扎菲儿子被暗杀身亡:4名蒙面人员闯入住所激烈交火

红星新闻 浏览 208

以政府证实:已批准占领加沙城计划

央视新闻客户端 浏览 513

3名自称宗庆后非婚生子女:母亲为娃哈哈前高管杜建英

上观新闻 浏览 633

最高续航达610km 江铃羿驰05S上市售9.79万元

网易汽车 浏览 366

对话工程院院士王浩:我国独创的“河湖长制”值得向“全球南方”国家推广

封面新闻 浏览 372

投资铜条1公斤280元 网友再也不敢叫"破铜烂铁"了

北京商报 浏览 250

美股存储芯片全线爆发,美光科技猛涨10%,闪迪涨超9%,英特尔涨超7%,国际油价突破100美元

21世纪经济报道 浏览 80

撑起500亿票房,国产片几大关键词:高质量动画大片、多维度抗战作品、话题性艺术佳作

环球网资讯 浏览 1225

浙江广东会师全运男篮决赛,辽宁四川将争夺铜牌

懂球帝 浏览 356

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro 浏览 418

特朗普自称"已结束六七场战争" 白宫列出"战争"清单

上观新闻 浏览 515

现场调查!拥有“黄金”招牌的金雅福爆雷后人去楼空,“买卖+委托”模式是否涉嫌非法吸存

华夏时报 浏览 2621

盘点布里斯班赛历届单打冠军:巨星云集,休伊特横跨十六年!

网球之家 浏览 256

大连海鲜成双十一最热销特产之一 海参大虾扇贝备受追捧

半岛晨报 浏览 307
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4