关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪728人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

45岁超模吉赛尔·邦辰带娃遛弯被拍

包饺子ai剪辑浏览 643

燃烧等离子体国际科学计划项目启动及研究计划发布

中安在线浏览 435

AI“一路狂飙”，南京如何用产业攻坚书写答案？

现代快报浏览 523

冲刺第一股，中国最大独立模型厂商的成色、能力与野心

晚点LatePost 浏览 368

6.4万的特斯拉FSD将成为历史！

新车评网浏览 367

杭州，居然是一个巨大的真人寻宝游戏！

时尚COSMO 浏览 577

特朗普谈筹备＂泽普会＂：就像让＂油醋融合＂一样困难

环球网资讯浏览 654

深圳自动驾驶安全实验室揭牌成立，将重点攻坚十大方向

南方都市报浏览 374

Intel大小核根本停不下来！甚至要做“统一核心”

快科技浏览 317

智能早报丨黄仁勋造访台积电3nm产线索取产能；万华化学突破机器人“仿生皮肤”材料

观察者网浏览 446

2026款上汽大众朗逸正式上市售价12.09万起

车质网浏览 360

白宫：美俄元首将以一对一形式在安克雷奇举行会晤

上观新闻浏览 625

ESPN：加拉塔萨雷对京多安感兴趣，球员想去土超感受一下

懂球帝浏览 588

穿重山、进窄门杉杉股份能众志成城？

铑财浏览 3820

东体：海港通过体系改造，激发莱昂纳多寻找射门空间的特点

直播吧浏览 575

软银清仓英伟达，孙正义套现415亿

YOUNG财经浏览 5464

工行市值逼近3万亿，五年内A股会诞生万亿美元市值的公司吗？

郭施亮浏览 11093

中方出面调停柬泰冲突王毅表态

环球网资讯浏览 389

谢娜发文为双胞胎女儿庆生，张杰转发

韩小娱浏览 365

售13.98万起吉利新能源皮卡四驱山地版/高寒版同步上市

网易汽车浏览 400

特朗普和泽连斯基会晤后 32个北约成员国防长仓促开会

澎湃新闻浏览 696

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

伊姐周日热推...

特斯拉大涨超...

乐高乐园是伪...

美股三大指数...

安以恩：邦本...

香港知名女星...

国安部：有间谍入住海景民宿偷拍军港被老板识破

特朗普：目前不打算供乌“战斧”导弹

克拉玛依小伙摩旅骑行3500公里去报到大一时报名参军

45岁超模吉赛尔·邦辰带娃遛弯被拍

燃烧等离子体国际科学计划项目启动及研究计划发布

AI“一路狂飙”，南京如何用产业攻坚书写答案？

冲刺第一股，中国最大独立模型厂商的成色、能力与野心

6.4万的特斯拉FSD将成为历史！

杭州，居然是一个巨大的真人寻宝游戏！

特朗普谈筹备＂泽普会＂：就像让＂油醋融合＂一样困难

深圳自动驾驶安全实验室揭牌成立，将重点攻坚十大方向

Intel大小核根本停不下来！甚至要做“统一核心”

智能早报丨黄仁勋造访台积电3nm产线索取产能；万华化学突破机器人“仿生皮肤”材料

2026款上汽大众朗逸正式上市售价12.09万起

白宫：美俄元首将以一对一形式在安克雷奇举行会晤

ESPN：加拉塔萨雷对京多安感兴趣，球员想去土超感受一下

穿重山、进窄门杉杉股份能众志成城？

东体：海港通过体系改造，激发莱昂纳多寻找射门空间的特点

软银清仓英伟达，孙正义套现415亿

工行市值逼近3万亿，五年内A股会诞生万亿美元市值的公司吗？

中方出面调停柬泰冲突王毅表态

谢娜发文为双胞胎女儿庆生，张杰转发

售13.98万起吉利新能源皮卡四驱山地版/高寒版同步上市

特朗普和泽连斯基会晤后 32个北约成员国防长仓促开会

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

伊姐周日热推...

特斯拉大涨超...

乐高乐园是伪...

美股三大指数...

安以恩：邦本...

香港知名女星...

国安部：有间谍入住海景民宿偷拍军港 被老板识破

特朗普：目前不打算供乌“战斧”导弹

克拉玛依小伙摩旅骑行3500公里去报到 大一时报名参军

45岁超模吉赛尔·邦辰带娃遛弯被拍

燃烧等离子体国际科学计划项目启动及研究计划发布

AI“一路狂飙”，南京如何用产业攻坚书写答案？

冲刺第一股，中国最大独立模型厂商的成色、能力与野心

6.4万的特斯拉FSD将成为历史！

杭州，居然是一个巨大的真人寻宝游戏！

特朗普谈筹备＂泽普会＂：就像让＂油醋融合＂一样困难

深圳自动驾驶安全实验室揭牌成立，将重点攻坚十大方向

Intel大小核根本停不下来！甚至要做“统一核心”

智能早报丨黄仁勋造访台积电3nm产线索取产能；万华化学突破机器人“仿生皮肤”材料

2026款上汽大众朗逸正式上市 售价12.09万起

白宫：美俄元首将以一对一形式在安克雷奇举行会晤

ESPN：加拉塔萨雷对京多安感兴趣，球员想去土超感受一下

穿重山、进窄门 杉杉股份能众志成城？

东体：海港通过体系改造，激发莱昂纳多寻找射门空间的特点

软银清仓英伟达，孙正义套现415亿

工行市值逼近3万亿，五年内A股会诞生万亿美元市值的公司吗？

中方出面调停柬泰冲突 王毅表态

谢娜发文为双胞胎女儿庆生，张杰转发

售13.98万起 吉利新能源皮卡四驱山地版/高寒版同步上市

特朗普和泽连斯基会晤后 32个北约成员国防长仓促开会

国安部：有间谍入住海景民宿偷拍军港被老板识破

克拉玛依小伙摩旅骑行3500公里去报到大一时报名参军

2026款上汽大众朗逸正式上市售价12.09万起

穿重山、进窄门杉杉股份能众志成城？

中方出面调停柬泰冲突王毅表态

售13.98万起吉利新能源皮卡四驱山地版/高寒版同步上市