关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者225人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

AI也能写学术论文了?上海交大团队揭开大模型撰写科研综述的秘密

科技行者 浏览 340

你敢变重6公斤吗?

时尚COSMO 浏览 86

嫁给周渝民终身不办婚礼?喻虹渊:没有向往

素素娱乐 浏览 33

活塞121-90狂胜送尼克斯四连败,坎宁安29分13助,布伦森25分

懂球帝 浏览 263

意媒:阿斯拉尼仍未被说服加盟博洛尼亚,跟金钱无关而是有关信心

直播吧 浏览 500

女子年初砸60万买黄金国庆后花20万买白银基金:真运气

潇湘晨报 浏览 285

土拍市场延续“缩量提质”百强房企今年前两月拿地超950亿元

商业观察杂志社 浏览 6283

随着北京险胜,辽宁大胜,CBA最新积分榜:前四皆9胜2负 排名有变

侃球熊弟 浏览 245

《小城大事》谭光明结局:因郑志强的一刀,他因祸得福终扎根月海

肆季娱乐 浏览 236

业主84万元新房被粪水环绕崩溃 管道一天排粪水10余次

潇湘晨报 浏览 265

初探三星 One UI 8.5 测试版:部分设计元素效仿苹果 iOS 26 风格

IT之家 浏览 409

NVIDIA牢牢把握独显市场92%份额!Intel终于突破1%

快科技 浏览 297

消失的1.8%,你的钱会发生什么

米筐投资 浏览 17665

人到中年别硬凹“少女感”,无龄感穿搭才是王道,优雅显贵

静儿时尚达人 浏览 304

普通人衣服没必要买太多,准备好这些实用的单品,百搭又舒适

静儿时尚达人 浏览 337

让“死嘴”会说多说,不太好听又如何

时尚COSMO 浏览 338

TVB绿叶演员生存报告

仙女事件簿 浏览 536

利智输了?李连杰终是没放下一直亏欠的“她”

顾史 浏览 229

大型断舍离后,这4类东西我不会轻易再买

黎贝卡的异想世界 浏览 361

终结3连败!骑士大胜双杀步行者 米切尔43分末节16分

醉卧浮生 浏览 297

只靠国产算力预训练,稳!全流程开源,「开元」盛世真来了

新智元 浏览 292
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4