可可资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

卷上天的新能...

《小龙人》贝...

她用整整十二...

理想汽车CE...

东方甄选的困...

米尔纳：我看...

劳力士收购宝齐莱，为直营铺路？

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

全新岚图知音预售22万元起配齐华为全家桶

因欧盟制裁普京或将绕行5000公里会晤特朗普

男女网友见面2次后住酒店女子称拒发生性关系遭强奸

他是80年代当红小生因＂高大泉＂成名，女儿竟是她

孔蒂：上赛季我们的夺冠出乎意料，这赛季的目标是全力卫冕

神奇出租车:用最廉价汽油为何98万公里不大修?

普京:俄罗斯维和部队将前往纳卡俄罗斯或成最大赢家？

帕森斯打趣里弗斯：别说执教雄鹿挑战最大你可以去活塞奇才啊

“WPS”上热搜！雷军为金山办公实控人，员工平均年薪约38万，金山此前发文：雷军任名誉董事长，不领薪酬

沙特，一部活色生香的《一千零一夜》

达成停火18天后战火再起以总理下令袭击加沙

AI带货频频“翻车”，谁应负责？

64岁麦当娜状况堪忧，橡胶脸明显走路需儿子搀扶

中科云网50亿元光伏业务项目，突然欠薪放假！

“平民卫士”搅局硬派SUV市场 iCAR V27首发登场

美防长被送医治疗已将职责移交给副防长

10.58 万！零跑造了一台「红米 YU7」

以前看不上，现在恨不得演两集！

胡塞武装称若加沙停火破裂将恢复袭击以色列

数据网站晒恩比德荣誉：6次全明星&5次最佳阵容 22-23赛季MVP

伊姐周日热推：电视剧《狙击蝴蝶》；电视剧《天书黎明》......

44岁李小璐参加公开活动！怼脸拍真实状态曝光，网友态度两极分化