关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者416人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

消息称华为 WATCH Ultimate 2 手表明日露出,预估 6000~7000 元

IT之家 浏览 398

消息称苹果 AirPods Pro 3 充电盒正面引入触控操作区域

IT之家 浏览 488

米体:尤文和米兰都有意金玟哉,但球员的高薪成为主要障碍

懂球帝 浏览 406

真心话大冒险开启,谁是你的双11购物车ONEPICK?

时尚COSMO 浏览 355

离谱!荣梓杉李禹熹聊天记录曝光,女方求荣梓杉报销372元房费

扒虾侃娱 浏览 402

豪华5座中大型SUV!续航2327km,瞄准理想L6

隔壁说车老王 浏览 323

杭州20楼江景房业主破防:每晚耳边都是广场舞立体声

环球网资讯 浏览 115

香港科技大学突破:让电脑"看懂"视频中每个像素的3D运动轨迹

科技行者 浏览 233

配置升级 2026款起亚嘉华将于9月1日上市

车质网 浏览 521

柳云龙:与初恋结婚,婚后生一女,如今咋样了?

人间无味啊 浏览 387

田径世锦赛男子20公里竞走:王朝朝8秒之差摘银,邦菲姆金牌

懂球帝 浏览 413

消息称vivo叫停AI眼镜项目,此前已秘密筹备半年时间

IT之家 浏览 227

上海工厂生产 廉价版特斯拉Model 3韩国开售

车质网 浏览 245

华为Momenta争夺保时捷,全球大厂智驾再度“投华”

汽车公社 浏览 247

全力向上!重庆铜梁龙赛季最后一个主场将展示全场拼图TIFO

懂球帝 浏览 389

罕见联合演练指挥导调现场公布:画面多处打码

环球网资讯 浏览 522

纯纯诈骗剧,浪费了一票女神

独立鱼 浏览 391

红色+棕色、蓝色+灰色,秋天最美的4组配色!

LinkFashion 浏览 485

会打扮的中年女人,穿衣都有这4个共同点,难怪优雅又气质

静儿时尚达人 浏览 568

锡伯杜:布里奇斯给球队带来了能量 他是个斗士

直播吧 浏览 665

巴菲特被曝已清仓比亚迪,持股期间比亚迪股价涨超38倍

澎湃新闻 浏览 419
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4