可可资讯

这篇由微软亚洲研究院的王思维、沈依飞、孙皓然等研究人员领衔完成的重要研究发表于2025年9月，论文编号为arXiv:2509.22613v1。研究团队还包括来自北京大学、哈佛大学和南加州大学的学者，这项跨机构合作的成果为我们揭开了一个重要谜题：为什么OpenAI的o1等先进AI模型在解决复杂问题时表现如此出色。

当我们看到ChatGPT或Claude能够解决复杂的数学题、编写完整的代码，或者制定详细的旅行计划时，我们可能会好奇：这些AI是如何学会"思考"和"规划"的？就像一个孩子从简单地记住答案，成长为能够分析问题、制定策略的成熟思考者一样，AI模型也经历了类似的学习过程。

在AI的世界里，存在两种截然不同的学习方式。第一种叫做"监督微调"，就像传统的填鸭式教育，老师告诉学生标准答案，学生机械地记住每个问题对应的答案。这种方法看似简单有效，但问题在于，当遇到新情况时，学生往往束手无策，因为他们只是在背诵，而没有真正理解解题的逻辑。

第二种方法叫做"强化学习"，这更像是让孩子在实践中摸索。孩子可以尝试不同的方法，如果成功了就得到奖励，失败了就调整策略。通过这种方式，孩子

微软亚研院突破：强化学习赋予语言模型规划能力

刚刚，全球首...

徒步甘孜失温...

六王赛：辛纳...

关税大棒下引...

《一路繁花2...

Claude...

车长超5米比亚迪海狮08/海豹08配高阶智驾

弃理从文，他走出不同寻常的电影路

杨丽萍离婚22年，富豪前夫依旧迷恋她主打守护

利民推出 PA140 SE 双塔风冷：158mm 高双风扇六热管，275W 解热

奔驰部分车型指导价下调10%，两大行业组织曾发函：经销商库存过高、价格倒挂严重

小鹏汽车增程车型矩阵加速落地构建"纯电+增程"双线格局

昔日巨头接连受挫，领先只剩1-3年，日本功率芯片遭遇中国价格战

34年来首次普京下令起草恢复核武器试验提议

《骄阳似我》顾漫花巨资买《遇见》《信仰》不是为庄序偏爱太明显

海报荐读｜AI产品情绪价值开始“分化”；无障碍出租车为何预约难

新势力洗牌激烈：零跑、华为双雄争霸方程豹斗败“蔚小理”

马特乌斯：格纳布里是拜仁和德国队的宝贵财富，保持好心态很重要

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

一只“死鸡”，能骗走你多少钱？

iPhone将砍掉相机控制按键！曝苹果已停止订购元件：没啥用还贵

2毫米支架颅内“拆弹”，他要跟全球巨头掰掰手腕

美国禁令反噬！中国断供培育钻石，半导体巨头：完了，要停产！

中国移动咪咕发布“书香悦学计划”，以“423行动”重塑企业数智化学习新范式

业绩承诺补偿“爽约”，鹏欣资源起诉公司实控人，此前收购金矿不赚反亏超3亿

英超前六相互交锋积分榜：曼联、维拉积12分最多，阿森纳9分

丹麦羽毛球公开赛今日打响，石宇奇迎来世锦赛后首次亮相

冬季穿搭不用露腿、不用扮嫩，舒适又耐看，这才适合普通女性

卡塔尔、埃及等多国谴责以色列接管加沙城计划

男子花30万与女子闪婚带其检查发现对方有性病曾吸毒