关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯3686人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女人到了六十岁还是短发更减龄 时尚又洋气

成铭聊发型 浏览 8151

方程豹豹5对手来了?深蓝全新硬派SUV曝光,网传售价30万左右

Nice好车 浏览 4017

媒体:韩总统神操作后 有人用鞋底猛抽尹锡悦雕像的脸

国防时报排头兵 浏览 50674

50岁穿衣就看她们,“简单款”穿出不俗的气质,高级有时尚感

静儿时尚达人 浏览 2001

中国可向欧盟《人工智能法案》借鉴什么?

澎湃新闻 浏览 4208

台失联战机同队士官长自杀,此前于深海已确认黑匣子信号

趣看热点 浏览 61556

中小银行异地展业整改倒计时 跨城存款“最后的疯狂”?

第一财经资讯 浏览 7557

法甲官方第26轮最佳阵:梅西、姆巴佩在列,巴黎四将入选

直播吧 浏览 10914

出境团队游国家扩展至138个,携程出境跟团线路搜索涨超20倍

网易科技报道 浏览 5876

塌房了?千万粉丝女网红被榜一大哥实锤

王珍一的自留地 浏览 7760

半裙搭配帆布鞋,初夏这样穿不出错

春菇凉时尚穿搭记 浏览 9947

这款包火过帆布包!周雨彤、汤唯都在背

你的包真好看 浏览 7810

奥斯卡社媒发文:重要的客场拿分

直播吧 浏览 6980

6套春节满分战袍穿搭!逛街约会走亲戚都能穿!

Yuki女人故事 浏览 4159

人类为了变美,都干出过哪些蠢事?

奔波儿灞与灞波儿奔 浏览 6101

中年女人多穿“阔腿裤”显气质!不挑身材、不挑年龄,美极了

静儿时尚达人 浏览 4298

PPE平台打造 首台预批量生产奥迪Q6 e-tron下线

网易汽车 浏览 3713

菲律宾发布48页国安文件:除了南海还对台海表关切

看看新闻Knews 浏览 6074

关晓彤最新生图暴露真实状态 25岁一脸疲惫

萌神木木 浏览 7565

美邦服饰创始人回应“做工丑、价格贵”,此前女儿执掌7年亏损30亿,还能重回巅峰吗?

红星资本局 浏览 4784

18岁男子多次与11岁女孩发生性关系 检方曾对其不批捕

澎湃新闻 浏览 45664
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4