关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者43人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

原来是他们!退市股获举牌4个交易日翻倍,步步高系大佬要进董事会

创作者_1486537600008 浏览 8239

中印“建立非军事区”“激怒印度官员”?

环球军事时报 浏览 18458

全运男足大冷?3大热门均无缘决赛!众国脚拉胯,徐根宝+韩鹏留憾

我爱英超 浏览 55

talkSPORT话题讨论哪个是世纪助攻,维尔通亨@孙兴慜:懂的都懂

直播吧 浏览 6148

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪 浏览 288

郭晶晶就个人发展问题最新发声

新民周刊 浏览 100

KAWS x 优衣库又回来了!

NOWRE现客 浏览 6368

35万以色列民众游行示威 敦促政府尽快结束冲突

每日经济新闻 浏览 186

瞄准中东土豪,这家“隐形巨头”卖爆2美元小东西,年销4亿

电商在线 浏览 917

向太声称女生不要下嫁,网友质疑何超莲窦骁离婚

草莓解说体育 浏览 83

上影节红毯大PK!倪妮舒淇周冬雨比美

萌神木木 浏览 8240

被央视点赞,《他是谁》为何如此“狂”?

甜小娱儿 浏览 11216

吃梅婷6年软饭“出轨”李小冉的今与梅婷天差地别

乡野小珥 浏览 183

华为智驾性价比王者 阿维塔07 Pro+售21.99万起

网易汽车 浏览 439

科技巨头在讨好英伟达,又想自研AI芯片摆脱英伟达

网易科技报道 浏览 4112

德国法院驳回对诺基亚的专利诉讼,OPPO回应称坚决反对高价收费

IT之家 浏览 6893

比起颜值,气质更重要

LinkFashion 浏览 4625

牛弹琴:马英九将首次到访大陆 有三个很不寻常之处

北京日报客户端 浏览 60223

30亿资本注入,破产重整的上汽红岩如何“翻身”?

汽扯扒谈 浏览 56

无人机入侵柬埔寨 洪森:伊朗名将可是被无人机杀死的

枢密院十号 浏览 44703

今年冬天最流行的4组叠穿,让你美出新高度!

LinkFashion 浏览 29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4