可可资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

一个手机壳卖...

印度双响炮！...

美军突袭马杜...

贵州茅台多款...

霍伊伦德离开...

从胶体物理到...

夏天别总穿黑色和白色，试试这几款红色单品，高级养眼显气色

黄仁勋亲赴台积电“讨要更多芯片” 回应存储短缺、涨价等问题

关于格陵兰岛美国＂改口＂了：目标是要从丹麦手中＂买岛＂

富勒姆球员巴锡边踢比赛边掉裤子，社媒回应：这场我肯定提好裤子

皇马+赫伊森仍未正式道歉！若不会道歉，就去学学梅西巴萨切尔西

埃迪-豪：弗兰克的球队无球时很有侵略性；英联杯对我们很重要

4月五菱汽车全球销量11.67万辆海外出口首破3万

特朗普与普京长时间通话 “会晤”与“战斧”成话题

年轻人迷上在线下交换自制周边

付豪：其实我们比球迷更想赢球，但球队实力与过去不可同日而语

美媒：美军事小组抵达以色列 “监督”执行加沙停火协议

内装豪华感提升小鹏X9增程版内饰发布

互黑式宣发：赵丽颖、黄晓明互动

111年来首现美总统炒掉美联储理事美元指数立即下跌

我国计算机软件事业先驱者之一、中国科学院院士董韫美因病逝世

法尔克：皇马考虑今夏以1.6亿至1.65亿欧元求购奥利塞

强抓马杜罗后特朗普：＂门罗主义＂该改为＂唐罗主义＂了

雷军辟谣：小米SU3渲染图肯定是假的目前还没有规划

小伙贷款30万炒＂数字藏品＂共70多万充进平台打水漂

海博思创400多亿市值背后，留美博士张剑辉的逆袭之路

延迟写《南京照相馆》？好电影，确实是对比出来的

王家卫录音曝光，内容信息很炸裂

「寻芯记」上市后首个大动作！摩尔线程公布全功能GPU架构路线图，国产芯片发起生态冲刺

美媒披露：美空军8天内向中东地区调派至少42架重型运输机