关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者316人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

瀚森真实命中率联盟垫底!断层落后倒数第二 投篮能力需大幅提升

罗说NBA 浏览 180

小插曲,威尔士对比利时的世预赛中有老鼠入场短暂干扰了比赛

懂球帝 浏览 284

小米YU7车主提车3天就被水泥罐车迎头顶撞:当时很无助

红星新闻 浏览 455

牛弹琴:针对16岁以下的孩子 澳洲干了件前所未有的事

现代快报 浏览 196

绿军逆转险胜魔术双方6人20+对攻 布朗27分班凯罗28+6

醉卧浮生 浏览 226

降温了!羽绒服这样穿显瘦又时髦

LinkFashion 浏览 156

腾讯突破:AI实现对话到电影的完整自动化制作

科技行者 浏览 138

小米YU7内掏出不明零件最新进展 市监局介入处理

网易汽车 浏览 303

柬泰签署停火联合声明 中方回应

北京日报 浏览 184

跻身世界第一梯队!这一行业,迎爆发风口

环球网资讯 浏览 284

特朗普遇到"反关税"广告:再给加拿大加10%关税

红星新闻 浏览 264

冯小刚携徐朵亮相芭莎盛典,21岁养女气质蜕变

露珠聊影视 浏览 154

外媒称“美国指控古巴军队在乌克兰作战” 古巴驳斥

环球网资讯 浏览 281

俄罗斯多地遭袭

极目新闻 浏览 173

8500万血亏?曼联新援0射门!单刀不射痛失绝杀+伤退致队少打1人

我爱英超 浏览 251

男女情爱奇招尽出,碎碎念伍迪老爷再上阵!

幕味儿 浏览 217

清华Nature发布惊人结论:AI写论文3倍速,但科学边界被锁死

新智元 浏览 157

2-4遭海牛逆转,国安追平队史中超主场单场丢球纪录

懂球帝 浏览 280

比小说更魔幻!前华人首富,为何被特朗普特赦

说财猫 浏览 1270

在普度寺,倾听BALMAIN八十年来的的呼吸

时尚COSMO 浏览 286

可搭载“波塞冬”核动力无人潜航器 俄新一艘核潜艇出坞

上观新闻 浏览 274
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4