可可资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

日方鼓吹拥核...

强脑科技：预...

刀郎巡演即将...

官方：勇士正...

2米高台直坠...

哥伦比亚总统...

低价“银行直供房”激增，有房产价格低于市价25%

2.8亿债务逾期，良品铺子实控人收执行通知，公司去年预亏超1.2亿

朝鲜举行盛大阅兵式高清大图来了

正式官宣！31岁何猷君再传喜讯让霍启刚刮目相看

这些才是最日常的冬季穿搭！不露腿、不扮嫩，简约舒适又保暖

光模块双雄：高增长审美疲劳高估值面临压力

秦昊一家五口度假，伊能静少女打扮但很显胖

乐摩科技八成设备“躺”在影院

奕境首款大六座SUV寒测图发布满配华为智能科技

日本宣布：推迟发射新型无人货运飞船HTV-X

告别造梦时代，中国汽车下一个十年怎么拼？

向导掐人中救醒高反昏迷女子反遭掌掴女子否认＂装晕＂

男子为救人按断女子6根肋骨女方丈夫:认他为异姓兄弟

《喜人奇妙夜2》即将收官，给你的戒断加点料

上海女子崩溃：前夫为泄愤下载群发三甲医院病历

健康活到100岁，科学能做些什么？@U35张汉林试图寻找衰老背后的“隐藏逻辑”

创女子体育新高，WTA与梅赛德斯-奔驰达成每年4700万美元合同

这9分神片终于引进，可惜票房不到100万

死亡人数增至44人!香港大埔火灾背后的宏福苑已42年楼龄

美媒：特朗普声称美将＂统治＂委其真实意图逐渐明朗

一网友称车辆在京东养车做保养后发动机报废

标配乾崑智驾ADS SE 阿维塔07 Pro+售21.99万起

苹果终于抛弃精织斜纹！iPhone 17系列官方手机壳亮相：合成纤维材质

2026年世界互联网大会亚太峰会下月在香港召开