关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者80人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

周杰伦蹭霉霉热度翻车!又被质疑崇洋媚外,近些年口碑越来越差

萌神木木 浏览 94

任正非称教育不能太实用主义:应该让学生“胡思乱想”

Tech星球 浏览 11024

中超第27轮跑动距离榜:马德鲁加12689米居首,赛季第2次登顶

懂球帝 浏览 80

百香果女孩案被写入最高法报告,家属希望这样的事情以后不会再发生

趣看热点 浏览 538170

银行批量直售房产 价格从几万元到几亿元不等

经济观察报 浏览 51

以“和美”之韵演绎时代新声 五粮液亮相第二十三届中国国际酒业博览会

中国商报 浏览 853

斯波:乐福为我们做出了很多贡献 他为球队增添了价值

直播吧 浏览 4525

欧拉樱桃猫正式亮相 纯电紧凑级SUV续航600km

网易汽车 浏览 12855

豪华大六座SUV/最新鸿蒙座舱 岚图泰山将于11月18日上市

网易汽车 浏览 40

湖人胜勇士!里弗斯后场发动机,八村垒艾顿齐爆,拉拉维亚辣眼

篮球资讯达人 浏览 86

《沙丘2》中有一处令人费解的漏洞

幕味儿 浏览 3539

美军无人机午夜侦察南海是怎么回事?中方对此如何回应?

趣看热点 浏览 18063

戚薇一家4口游迪士尼,小儿子首露面

缘木不求娱 浏览 4333

5种风格50套搭配,照着穿就很美

LinkFashion 浏览 6402

思域Type-R真的滞销了?这些被捧上天的燃油性能车为啥叫好不叫座

蜗牛车志V 浏览 3931

上午设计、次日量产,“AI密度最高的城市”如何借供应链优势加快企业出海?

时代周报 浏览 822

美威胁停买"中国油" 专家:或闹乌龙 为"废弃食用油"

环球时报新闻 浏览 82

美国男篮9人名单远逊4年前:0巨星被批不如加拿大 再创历史最差?

颜小白的篮球梦 浏览 8251

杨紫琼升级当奶奶 与富豪老公相拥亲吻高调撒糖

扒虾侃娱 浏览 4600

托辛:很荣幸在队内是资深球员;“叔叔”的外号来自马杜埃凯

懂球帝 浏览 69

吴姗儒帮小S代班首录影,透露小S仍旧心系节目,希望她早日回归

素素娱乐 浏览 453
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4