可可资讯

新智元报道

编辑：LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节，从需求分析到代码生成，再到自动化测试，几乎无所不能，但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」，一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队，首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述，为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来，ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进，从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是：我们如何客观评估这些模型在不同软件工程任务中的表现？

在SE领域，Benchmark既是分数卡，让不同模型在同一标准下比拼；也是方向盘，引导技术改进与未来研究方向。

从需求分析到代码生成，LLM都能干点啥？一文读懂291个软工Benchmark！

虞书欣父亲起...

罗马诺：加拉...

“粉色+咖色...

媒体：泽连斯...

美以联合袭击...

知情人士：特...

杜淳带娃吃冰激凌，穿紫色长袜好抢镜，小蛋饺投喂爸爸幸福满溢

EXO见面会遭抵制！官宣12月13日举办，中粉大骂公司要求改期

需求激增流感药“新老对决”

大学副教授成老赖仍开宝马用新手机一次餐费花8000元

金九银十冲刺期：中国车企最新销量与目标完成率同步披露

理想 L8 的配置卖 L6 的价格，昊铂 HL 增程版 26.98 万元起售，纯电续航 350km

首秀高效表现，马刺榜眼秀哈珀18分钟6中4得9分3助攻，正负值+20

女子孕检低风险却生下唐氏儿险企拒赔：只赔＂标准型＂

U23亚洲杯疯狂一夜：韩国4-2逆转日本3-0接近进8强中国队争首胜

悦意双子星万台交车一汽奔腾全面转型新能源品牌

女佣自杀，最贵凶宅诞生！许家印好牌友要吐血

两名英格兰球员在西班牙国家德比中交手，为123年来首次

＂荒野求生＂48万元奖金被平分选手：这点钱不够盖房子

印媒：印度将在印巴边境地区启动大规模三军联合演习

推广中奖名单-更新至2025年10月10日推广

欧盟调整“禁燃”，堵死自己的路

辛芷蕾飞升独一档，85花格局变了！

小鹏汽车CEO何小鹏：所有核心产品线都要走向全球市场

董璇张维依三亚带娃，这才是家庭最舒服的样子

伊朗总统：袭击最高领袖等同“发动全面战争”

U23亚洲杯1/4决赛对阵出炉！U23国足迎战乌兹别克

美国团队研发新型机器人：可变换数百种形状，还能征服复杂地形

内塔尼亚胡被指传话无意攻击伊朗与其公开表态相背离

美军：已打击伊朗50艘船和5000个目标