关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者296人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马卡:皇马将在国家德比展出巨型TIFO,彰显俱乐部的历史

懂球帝 浏览 256

亏损超10.6亿,中美观众差评出奇一致,好莱坞年度票房惨案来了

靠谱电影君 浏览 252

奔驰140岁生日,新款S级完成全球首秀,还提供三种动力选择

火星说车 浏览 105

特朗普披露斡旋俄乌动机:担心自己死后无法上天堂

澎湃新闻 浏览 395

陈明昊熬出来了,正儿八经当主角,新片吴京力荐,出演追债大哥

最爱酷影视 浏览 377

严屹宽老婆41岁生日,婆婆送杜若溪万元大红包

爱八卦的晓请 浏览 125

1000亿美元!华人干出全球第四大AI独角兽

智东西 浏览 394

拟收购零跑汽车10%股份?中国一汽官方回应:不实信息

澎湃新闻 浏览 416

热议日本3-2巴西:几十年认准一条路;人家从容我们连滚带爬

懂球帝 浏览 275

女星安吉丽娜·朱莉访乌 其随身保镖被乌军征兵处抓走服役

极目新闻 浏览 222

“美国党”成泡影?马斯克据称放缓组建政党 将专心运营公司

财联社 浏览 381

特朗普:我说服了自己暂缓对伊朗采取军事行动

澎湃新闻 浏览 131

国台办:对于迫害大陆配偶的"台独"帮凶爪牙决不轻饶

环球网资讯 浏览 237

连发三个公告,意味深长

博闻财经 浏览 603

ST路通内斗激化!“资本大佬”吴世春“抄底”遭遇绊脚石

野马财经 浏览 1519

演员黄璐将惊喜现身明日艺术影院映后❤️

幕味儿 浏览 182

时隔十年上证指数重返3900点 四季度A股“开门红”

商业观察杂志社 浏览 260

破纪录了!纯电续航跑了1205公里!量产车!

小李车评李建红 浏览 466

雷军回应小字营销:确实是行业陋习 马上就改

网易汽车 浏览 156

充满争议仍获放行:密歇根州批准为甲骨文与OpenAI超级数据中心供电

华尔街见闻官方 浏览 1891

郭碧婷爸爸“打脸”向太:郭碧婷一人承担俩孩子开销

青途历史 浏览 281
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4