关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者60人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体人:特奎维恩-史密斯加盟深圳男篮 上赛季曾短暂效力于江苏

直播吧 浏览 288

牛弹琴:美欧直接开干 全世界看得目瞪口呆

现代快报 浏览 95

大一新生开学不久在校死亡 家长在医生的建议下报警

红星新闻 浏览 302

18.99万起,智享大六座旗舰SUV风云T11上市,又要卖爆?

电车通 浏览 187

邮报:纽卡中卫丹-伯恩遭遇肺穿孔和肋骨骨折,将缺阵六周

懂球帝 浏览 120

今年最好看的4件毛衣!

LinkFashion 浏览 205

黄多多晒20岁生日照,美国公寓装修高档

揭秘世间万象 浏览 60

李湘被指还有个亲生儿子 孩子生父疑为杨姓富豪

古希腊掌管月桂的神 浏览 338

退休后,他们重新开始上班:“工资不高,图个开心”

时代周报 浏览 756

写了10年流行色,今年这个真的很适合亚洲人

黎贝卡的异想世界 浏览 129

立威第一枪?巴拿马拿中资港口开刀,李嘉诚228亿落空?

数字财经智库 浏览 17360

以色列足协回应挪威足协:希望那笔钱别用来资助恐怖组织或者捕鲸

直播吧 浏览 322

120公里时速L3破局:广汽昊铂A800引领智能驾驶新赛道

澎湃新闻 浏览 140

米体:罗马想冬窗租借齐尔克泽,若晋级欧冠会自动触发买断

懂球帝 浏览 154

中国元素!赌王之子何猷君入股凯尔特人 杰伦-布朗是其最爱

直播吧 浏览 350

埃迪-豪联赛对前东家伯恩茅斯7场不胜,并列英超最长纪录

懂球帝 浏览 269

以军称被扣押人员全部返还前不会停止打击哈马斯

新京报 浏览 190

英媒:意甲俱乐部在关注拉斯金,热刺和狼队也对其感兴趣

懂球帝 浏览 194

苹果死磕廉价牌

雪豹财经社 浏览 3018

马德里竞技,贝蒂斯国王杯四分之一决赛对手

绿茵情报局 浏览 72

问界M6官图首发 以年轻化设计叩击25-30万级市场

网易汽车 浏览 55
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4