关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元525人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

男子取170万元现金 在银行门口遭抢劫致重伤左眼失明

扬子晚报 浏览 319

继与霉霉恋情谣言后,里弗斯被传约会网红

艺兔体坛 浏览 258

内地第一美人,也塌房了

独立鱼 浏览 269

18.68万起!新款小鹏G7/P7+增程版上市

网易汽车 浏览 247

【中超】恩里克2球迪力穆拉提世界波 梅州1比4玉昆

体坛周报 浏览 375

韩安冉回应账号被封:辜负大家的期待,对自己来说是件好事

扒虾侃娱 浏览 283

拜仁26/27赛季客场球衣谍照:白色主色调,队徽内EV字样回归

懂球帝 浏览 416

当61岁苏敏和41岁傅首尔站在一起

阿废冷眼观察所 浏览 551

谢林汉姆:加纳乔非常有天赋,但不确定他能否在蓝军取得成功

懂球帝 浏览 385

女子乘二等座买到"单人座":空间较宽敞 旁边能放行李

极目新闻 浏览 211

万斯:照顾美国老年人比援助乌克兰重要

参考消息 浏览 266

43岁阿Sa承认与男友同居,已带男友见过家长

扒虾侃娱 浏览 167

他是头婚,董璇是头昏

Yuki女人故事 浏览 522

微星回应黄端16针电源接口松动,属于“缺陷”批次

IT之家 浏览 173

3名00后全国"刮腻子"团队年入百万:凌晨三点在焊钢架

潇湘晨报 浏览 246

贝莱林:温格视足球为艺术,阿尔特塔和他就如同一枚硬币的两面

直播吧 浏览 462

赵勇谈中国女排再次逆转:为全队感到骄傲,总决赛会全力以赴准备

直播吧 浏览 603

具身智能开启汽车产业万亿新赛道

车质网 浏览 335

公司倒查半年考勤辞退迟到32次员工 员工起诉法院判了

上观新闻 浏览 336

美媒:"林肯"号航母打击群一两天内即可对伊朗动武

国际在线 浏览 205

二刷《哪吒2》才发现,这些致敬周星驰的细节,抽了翻拍片的脸

娱乐圈笔娱君 浏览 740
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4