可可资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

马斯克：我更...

布克连吃2T...

法国暴力骚乱...

41岁宋慧乔...

贾玲新片《转...

胡塞武装称已...

不是这个，重新发皇马官推今日第二推：10魔笛+5贝林=15冠

上海9旬老太举报保姆虐待儿媳:保姆逼写自愿给钱字据

陶哲轩新论文：部分证明著名素数猜想，新方法用到了自己的旧模型

女人到了六十岁还是短发更减龄时尚又洋气

方程豹豹5对手来了？深蓝全新硬派SUV曝光，网传售价30万左右

媒体：韩总统神操作后有人用鞋底猛抽尹锡悦雕像的脸

50岁穿衣就看她们，“简单款”穿出不俗的气质，高级有时尚感

中国可向欧盟《人工智能法案》借鉴什么？

台失联战机同队士官长自杀，此前于深海已确认黑匣子信号

中小银行异地展业整改倒计时跨城存款“最后的疯狂”？

法甲官方第26轮最佳阵：梅西、姆巴佩在列，巴黎四将入选

出境团队游国家扩展至138个，携程出境跟团线路搜索涨超20倍

塌房了？千万粉丝女网红被榜一大哥实锤

半裙搭配帆布鞋，初夏这样穿不出错

这款包火过帆布包！周雨彤、汤唯都在背

奥斯卡社媒发文：重要的客场拿分

6套春节满分战袍穿搭！逛街约会走亲戚都能穿！

人类为了变美，都干出过哪些蠢事？

中年女人多穿“阔腿裤”显气质！不挑身材、不挑年龄，美极了

PPE平台打造首台预批量生产奥迪Q6 e-tron下线

菲律宾发布48页国安文件：除了南海还对台海表关切

关晓彤最新生图暴露真实状态 25岁一脸疲惫

美邦服饰创始人回应“做工丑、价格贵”，此前女儿执掌7年亏损30亿，还能重回巅峰吗？

18岁男子多次与11岁女孩发生性关系检方曾对其不批捕