关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯3872人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卢拉将访华 随行商业代表团人数将达到创纪录的240人

参考消息 浏览 71449

王思聪搂美女逛街,女方和前女友是闺蜜,00后女友疑似吃醋喊话

萌神木木 浏览 4081

波兰官员称如乌战败中国大陆会攻打台湾 中方回应

环球网 浏览 10513

法蒂:梦想在巴萨取得成功;弗里克肯定会取得好成绩

懂球帝 浏览 2431

价格更低 空间更大 广汽传祺GS8五座版正式上市

网易汽车 浏览 2623

AMD 确认 Radeon RX 9060 显卡仅限 OEM 渠道

IT之家 浏览 44

外卖小哥认识美籍幼师5个月闪婚:在电梯里一见钟情

潇湘晨报 浏览 63

以色列再次空袭叙利亚首都大马士革,反导系统成功拦截大部分导弹

趣看热点 浏览 18233

武汉不是疫情来源,世卫组织发布最新疫情溯源报告

趣看热点 浏览 1221587

5天破3亿!“屌丝”大鹏,不愿学沈腾

金错刀 浏览 4316

奶粉卖不动了,是因为出生人口下降?

中国新闻周刊 浏览 9283

马祖拉:没人能防住东欧 他们一定会得分的 要把比赛看作一个整体

直播吧 浏览 2563

十字路口的YY直播:从"欢聚"3年,到百度"退货"

Tech星球 浏览 4165

向佐与郭碧婷游西湖贴脸自拍 首曝儿子高清正面照

叶公子 浏览 6157

不长记性?李国庆又夸妻秀恩爱了

正经社 浏览 57

深夜突发!碧桂园彻底摊牌,遇到成立以来最大危机

易简财经 浏览 7230

“平安家医”春节服务超65万人次,日均服务超8.6万人次

网易科技频道 浏览 3843

高迪预测英超天王山之战:看好蓝月亮客场不败

直播吧 浏览 3502

杨幂采访揭掉古偶遮羞布,粗制滥造、撕番炒作,明星都不屑提及

萌神木木 浏览 4035

特朗普称"无人关心"爱泼斯坦案 马斯克嘲讽:公布得了

每日经济新闻 浏览 253

扎克伯格称赞马斯克:推特大裁员是行业榜样

界面新闻 浏览 7541
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4