关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者415人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中央定调!“十五五”目标确立,未来5年养老金还会涨吗?

数字财经智库 浏览 1137

黄金价格回调ETF热度不减 不同跟踪标的下黄金ETF涨跌区别在哪儿?

金证研 浏览 1526

尚界H5 到店 别盯着价格,看看优缺点有哪些!

Nice好车 浏览 425

留给国外豪车的时间已经结束了

智驾网 浏览 596

金·卡戴珊抵达英国,与F1车手汉密尔顿秘密约会

土澳的故事 浏览 230

辛杰上任9个月辞去万科董事长职务 深铁系黄力平接任

每日经济新闻 浏览 413

拉莫斯:可以接受战平浙江队的结果,球队走在正确的道路上

懂球帝 浏览 362

黄仁勋:中国军方才不会用美国芯片,人家有这能力

观察者网 浏览 653

被大空头狙击的明星AI股Palantir,华尔街怎么看

第一财经资讯 浏览 1225

美拉德过时了?今年冬天最火的4个颜色竟然是它们

LinkFashion 浏览 253

中海成都谋变?曝开发公司连亏2年,桐梓林28亩项目寻合作

密探财经 浏览 5987

手机店老板称线下不卖新机了,为啥手机店都不卖手机了?

江瀚视野 浏览 6468

光伏重大资产重组终止

21世纪经济报道 浏览 1805

斯普利特:杨瀚森暂未100%与球队同步,但他整体表现是正面的

懂球帝 浏览 273

小S曝具俊晔现状:因太思念大S,没法正常生活

比利 浏览 356

GPT-Realtime-2上线!全球AI巨头加码,语音一夜成了AI圈香饽饽

雷科技 浏览 78

外套真的没有必要买太多,准备这几件大衣就足够,简单耐穿又百搭

静儿时尚达人 浏览 144

售17.98万起 方程豹钛7首周上险量为1257台

网易汽车 浏览 481

石破茂:拥核绝不会给日本带来正面影响

环球网资讯 浏览 288

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 341

俄外长:向乌提供“战斧”将让俄美关系出现最危险局面

上观新闻 浏览 385
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4