关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元524人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巴西前国脚埃默松-莱昂:内马尔无法成为任何人的榜样

懂球帝 浏览 407

范志毅:U23国足半死不活的踢法世界最先进最科学 对手不会踢了

念洲 浏览 225

孙燕姿被曝要与曲婉婷合作,二人过往互动被扒,关系亲密是好朋友

萌神木木 浏览 302

女护士被同居男友杀害 家属:放弃赔偿希望判男方死刑

纵览新闻 浏览 329

疯狂推新,营收大涨27%!小熊电器“翻身”

侃见财经 浏览 1341

81岁“中国刻蚀机之父”拟减持:已从外籍恢复为中国籍,为办理税务需要

红星资本局 浏览 1143

内娱女明星手撕导演,翻车了?

独立鱼 浏览 327

45岁超模吉赛尔·邦辰带娃遛弯被拍

包饺子ai剪辑 浏览 523

离婚分走4亿财产,最爽的投行女出现了

金融八卦女 浏览 1366

中国女足近11次对澳大利亚未尝胜绩,但在亚洲杯还没输过对方

懂球帝 浏览 133

苹果发布 iPhone 17e 搭载 A19 芯片 4499 元起售

威锋网 浏览 154

宇树科技更名!正在办理工商变更,已完成首期上市辅导

红星资本局 浏览 1499

国外产子,知三当三,江疏影传闻哪个是真的

黔乡小姊妹 浏览 78

高市早苗内阁"明显右转" 日本或开启"保守暴走"时代

上观新闻 浏览 370

霸榜热搜,尺度惊人,他绝对值得你追

Yuki女人故事 浏览 230

价格猛涨、库存连降!环氧丙烷题材股接连涨停

览富财经网 浏览 1950

牛弹琴:2025年最后1个月大戏上演 印度迎最重要客人

北京日报客户端 浏览 315

台当局阻挠台胞参加阅兵 国台办:行径卑劣

界面新闻 浏览 419

减重5.9kg 福特Mustang GTD裸碳版官图发布

车质网 浏览 500

金山办公放不下协同梦

光子星球 浏览 460

气场拉满:泰国改装厂让长城坦克300“变身”Brabus G63

IT之家 浏览 253
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4