关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯4099人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

因欧盟制裁 普京或将绕行5000公里会晤特朗普

环球网资讯 浏览 78

男女网友见面2次后住酒店 女子称拒发生性关系遭强奸

极目新闻 浏览 28448

他是80年代当红小生因"高大泉"成名,女儿竟是她

我是娱有理 浏览 8015

孔蒂:上赛季我们的夺冠出乎意料,这赛季的目标是全力卫冕

懂球帝 浏览 11

神奇出租车:用最廉价汽油 为何98万公里不大修?

汽车安利会 浏览 4420

普京:俄罗斯维和部队将前往纳卡俄罗斯或成最大赢家?

趣看热点 浏览 17635

帕森斯打趣里弗斯:别说执教雄鹿挑战最大 你可以去活塞奇才啊

直播吧 浏览 4289

“WPS”上热搜!雷军为金山办公实控人,员工平均年薪约38万,金山此前发文:雷军任名誉董事长,不领薪酬

大象新闻 浏览 84

沙特,一部活色生香的《一千零一夜》

时尚COSMO 浏览 80

达成停火18天后战火再起 以总理下令袭击加沙

国际在线 浏览 54

AI带货频频“翻车”,谁应负责?

虎嗅APP 浏览 931

64岁麦当娜状况堪忧,橡胶脸明显走路需儿子搀扶

好丹 浏览 6329

中科云网50亿元光伏业务项目,突然欠薪放假!

证券时报 浏览 4702

“平民卫士”搅局硬派SUV市场 iCAR V27首发登场

网易汽车 浏览 28

美防长被送医治疗 已将职责移交给副防长

央视新闻客户端 浏览 4288

10.58 万!零跑造了一台「红米 YU7」

极客公园 浏览 50

以前看不上,现在恨不得演两集!

伊周潮流 浏览 4084

胡塞武装称若加沙停火破裂将恢复袭击以色列

极目新闻 浏览 47

数据网站晒恩比德荣誉:6次全明星&5次最佳阵容 22-23赛季MVP

直播吧 浏览 6218

伊姐周日热推:电视剧《狙击蝴蝶》;电视剧《天书黎明》......

伊周潮流 浏览 11

44岁李小璐参加公开活动!怼脸拍真实状态曝光,网友态度两极分化

萌神木木 浏览 100
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4