关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者314人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

约6000人被埋加沙废墟下 哈马斯:不会离开自己的土地

红星新闻 浏览 356

李湘高调炫富再传噩耗,隐私被扒洗不白

生命之泉的奥秘 浏览 228

自动驾驶激战CES:黄仁勋硬刚马斯克,中国军团已默默量产破局

电车通 浏览 242

天士力前三季心血管板块实现增长

证券市场周刊 浏览 1333

暗夜出击!南部空军全要素实兵演练超燃来袭

环球网资讯 浏览 244

NYU研究揭示:模型宽度与能力非线性相关

科技行者 浏览 368

赵睿为地域歧视言论道歉:不该将情绪发泄球迷身上 感谢监督批评

醉卧浮生 浏览 198

“这条裙子”今年春天又火了!配这4双鞋减龄又好看

LinkFashion 浏览 197

张建勇、张国富等22人增持北汽蓝谷 刘观桥增持花了4年工资

道哥说车 浏览 241

限制赎回风波后,当红PE Blue Owl为数据中心专项基金募资17亿美元

华尔街见闻官方 浏览 5231

哈马斯证实达成加沙停火协议

CCTV国际时讯 浏览 347

175款智慧康养机器人产品将亮相成都!记者提前探馆带你体验

红星新闻 浏览 346

蔚来ET5T暗影套装限定版上市 售价31.6万元

车质网 浏览 367

友人追忆杨振宁:他其实还有一个遗憾

大象新闻 浏览 390

100小时极寒挑战,董明珠图啥?

中国新闻周刊 浏览 236

华为诺亚实验室突破:轻量化技术提升AI规划效率

科技行者 浏览 217

笑不活了!网友集体冲进李亚鹏账号评论区,各种神评涌现太离谱!

娱乐圈笔娱君 浏览 408

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

北京日报客户端 浏览 351

比亚迪秦 L EV 云辇型上市:搭载云辇-C,限时价 12.98 万元

IT之家 浏览 504

汤杯爆冷,14冠王印尼1-4不敌法国,队史首次止步小组赛

懂球帝 浏览 58

标配华为乾崑智驾 深蓝S07售15.69万起

网易汽车 浏览 423
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4