关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元338人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方:罗汉琛新赛季正式加盟深圳男篮

懂球帝 浏览 337

看了被“烤瓷大白牙”毁了的年代剧,我怀念起了刘琳巩俐的乡土味

娱乐圈笔娱君 浏览 88

特朗普突然中止与加拿大贸易谈判 加元汇率直线跳水

每日经济新闻 浏览 204

成本3元卖60元,“99%高纯”磷虾油实测核心成分为0!百年同仁堂“栽”在贴牌上

国际金融报 浏览 1929

"饥饿画面"震惊全球 G7三国"转向"或刺激以色列升级行动

澎湃新闻 浏览 343

媒体人:刘雁宇将以租借形式加盟吉林男篮

直播吧 浏览 302

拐点来临!苏宁易购“大店战略”三年成效显现

时代周报 浏览 516

百年老字号的资本挑战:携创收单品安宫牛黄丸,同仁堂医养四冲港股|港E声

时代周报 浏览 796

搭激光雷达/纯电续航506km 长安启源全新Q05开启盲订

网易汽车 浏览 201

66岁倪萍身价过亿,26岁儿子却成她心头大患

手工制作阿歼 浏览 119

米体:尤文愿承担恩-内斯里400万欧年薪,奥托利尼已到土耳其

懂球帝 浏览 85

90后占比近六成,小鹏X9超级增程成年轻家庭首选

定焦One 浏览 929

52岁郭德纲也没想到 徒弟阎鹤祥给他争光了

乡野小珥 浏览 147

千亿豪赌,甲骨文会成“甲骨文”?

每日资本论 浏览 1041

74岁刘銮雄罕见露面,穿睡衣出行气场全开,逛国产车店当场下单

扒虾侃娱 浏览 246

美军在高速公路实弹军演 万斯安保车遭炮弹碎片击中

红星新闻 浏览 204

北京一副局长送外卖:没想到骑手张口就是"别罚我款"

第一财经资讯 浏览 140

让毛孩子吃口放心粮,咋这么难?

虎嗅APP 浏览 2308

沈逸:谁尊重历史谁背叛历史 观礼名单写得一目了然

澎湃新闻 浏览 353

纽约时装周“内卷”严重,实用主义成最大赢家

时尚COSMO 浏览 560

小马智行第七代 Robotaxi 完成吐鲁番夏测

IT之家 浏览 326
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4