关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元426人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大学副教授成老赖仍开宝马用新手机 一次餐费花8000元

新京报 浏览 288

金九银十冲刺期:中国车企最新销量与目标完成率同步披露

汽车族杂志 浏览 319

理想 L8 的配置卖 L6 的价格,昊铂 HL 增程版 26.98 万元起售,纯电续航 350km

爱范儿 浏览 401

首秀高效表现,马刺榜眼秀哈珀18分钟6中4得9分3助攻,正负值+20

懂球帝 浏览 323

女子孕检低风险却生下唐氏儿 险企拒赔:只赔"标准型"

鲁中晨报 浏览 289

U23亚洲杯疯狂一夜:韩国4-2逆转 日本3-0接近进8强 中国队争首胜

侃球熊弟 浏览 168

悦意双子星万台交车 一汽奔腾全面转型新能源品牌

网易汽车 浏览 521

女佣自杀,最贵凶宅诞生!许家印好牌友要吐血

说财猫 浏览 346

两名英格兰球员在西班牙国家德比中交手,为123年来首次

懂球帝 浏览 277

"荒野求生"48万元奖金被平分 选手:这点钱不够盖房子

极目新闻 浏览 181

印媒:印度将在印巴边境地区启动大规模三军联合演习

环球网资讯 浏览 275

推广中奖名单-更新至2025年10月10日推广

黎贝卡的异想世界 浏览 228

欧盟调整“禁燃”,堵死自己的路

汽车公社 浏览 230

辛芷蕾飞升独一档,85花格局变了!

Yuki女人故事 浏览 340

小鹏汽车CEO何小鹏:所有核心产品线都要走向全球市场

IT之家 浏览 183

董璇张维依三亚带娃,这才是家庭最舒服的样子

吴霶爱体育 浏览 92

伊朗总统:袭击最高领袖 等同“发动全面战争”

每日经济新闻 浏览 151

U23亚洲杯1/4决赛对阵出炉!U23国足迎战乌兹别克

体坛周报 浏览 159

美国团队研发新型机器人:可变换数百种形状,还能征服复杂地形

IT之家 浏览 272

内塔尼亚胡被指传话无意攻击伊朗 与其公开表态相背离

红星新闻 浏览 147

美军:已打击伊朗50艘船和5000个目标

财联社 浏览 66
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4