关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元45人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梁洛施晒外出游玩照尽显气质,和李泽楷相处和睦

娱乐团长 浏览 11439

OpenAI CEO首场中国演讲:推进AGI安全治理,需要国际科技界展开合作

经济观察网 浏览 7823

90后男子将去世奶奶"做"进卡带 5分钟通关游戏玩哭网友

上观新闻 浏览 33

宁波美女买爱马仕包被捆绑销售140万:一个狗窝一万七

魔都囡 浏览 29296

早春灰黑白穿搭依然很流行,中年女人试试从这些外套入手,显气质

Yuki时尚酱 浏览 2602

湖人马上要被淘汰了,詹姆斯最有可能去的球队

趣看热点 浏览 17188

35.59万起,全新雷克萨斯RZ 300e上市

天天汽车 浏览 4414

美国财长:美中就经贸问题进行了“非常良好的对话”,当前工作开展顺利

环球网资讯 浏览 78

小米:汽车营销负责人周钘系因个人和家庭原因离职

财联社 浏览 10765

安踏儿童「纤女鞋」专为女生设计,呵护女生健康成长

潮人志Fashion 浏览 4132

《大话西游》中朱茵扮演了青霞和紫霞,可是很多人都不知道她还在里面扮演了猪八戒

趣看热点 浏览 18787

难怪姐姐们买来买去都是它 根本把持不住!

拜托了收姐 浏览 10214

抖音宣布整治拍摄“理想车主乱停车”

电动知家 浏览 54

亚洲电影大奖红毯:刘嘉玲优雅,李英爱露香肩,蒋勤勤拿大奖

素素娱乐 浏览 3622

热巴工作室再发无效声明 评论区大失控

萌神木木 浏览 6950

初秋街头的松弛vibe 怎么穿出来?

创作者_WCD3 浏览 6192

涉诉被冻结20万股权?汪小菲成被执行人,麻六记张兰添新烦恼

时代周报 浏览 10581

遭泼红漆、撞闸门,比亚迪惹到谁了?

无冕财经 浏览 8994

重庆大学团队将离子电流转为电子电流,让离子热电材料实现连续工作

DeepTech深科技 浏览 7875

消息称恒大汽车子公司预计裁员95%,若无新投资者加入将面临倒闭

Tech星球 浏览 11916

追光L首发/新款梦想家预售 岚图成都车展阵容曝光

网易汽车 浏览 41
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4