关闭广告

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

爆角追踪727人阅读

Karpathy 认为强化学习（RL）在 AI 领域目前很火，而且确实能带来显著的性能提升。RL 的核心逻辑是：通过奖励信号（比如“这次做得好”或“这次很差”），调整模型未来行为的概率。

这种方法比传统的监督微调（SFT）更高效，因为它通过“试错”能挖掘出更优的策略，而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”（验证函数）带来的杠杆效应——你只需要告诉模型结果好坏，它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧，说明 RL 可能不是 AI 智能进化的全部答案：

1. 长任务的局限性（渐进问题）：

当任务变得很长（比如需要几分钟甚至几小时的交互），RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

精彩推荐

美推进“金穹”系统的天基拦截器研制但钱和技术都存在问题

澎湃新闻浏览 517

贾跃亭发布大消息：旗下机器人业务重大进展

电动知家浏览 319

《一饭封神》刚开火，《百厨大战》就上灶，各大卫视开始卷厨综了

最爱酷影视浏览 641

NBA战报：凯尔特人115-101公牛取NBA4连胜，安芬尼-西蒙斯27+3+3

懂球帝浏览 395

加沙超50万人陷入饥荒以军或9月中旬攻加沙城

新华社浏览 561

被截胡，赫塔费主席曾称谈妥了穆尼奥斯，但球员去了奥萨苏纳

懂球帝浏览 783

eSIM来了，但还在来的路上

北京商报浏览 527

0-2！中超领头羊丢尽颜面，连续9场不胜日本球队，还沦为亚冠垫底

侃球熊弟浏览 455

涨价带不动业绩，“黄酒双雄”上半年刹车，古越龙山净利润被会稽山反超

时代周报浏览 1194

丰田辟谣与比亚迪技术合作，网友的评论，能让丰田章男能背过气去

小李车评李建红浏览 382

毒枭留下的80头河马被捕杀前获救亚洲富豪：我全要了

中国新闻周刊浏览 198

戴奇：阿森纳不只靠定位球得分；与津琴科沟通过提前结束租借

懂球帝浏览 353

媒体：被美国逼着“朝中国开枪” 韩国玩得起吗

澎湃新闻浏览 514

国产纯电SUV三代，全新蔚来ES8要来了

懂车之道浏览 647

曼联阻止青训新福登过早首秀！担心重蹈青木覆辙，目前不适合登场

罗米的曼联博客浏览 509

沃什被提名次日特朗普:不降息就把他告到裤子都不剩

极目新闻浏览 374

临危受命18个月，横琴人寿董事长或“功成身退”！

独角金融浏览 3435

P图只用一句话，小米超级小爱AI大模型“随心修图”上线

IT之家浏览 456

开扒女明星穿了5年以上的外套，原来都有一个共同点

黎贝卡的异想世界浏览 430

中国对日本政府发出第一道制裁令暗示了高市早苗结局

时时有聊浏览 387

北京拿下“五万亿之城”，为何还成了AI之城？

BT财经浏览 6087

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

美国务卿：希...

175款智慧...

三亚五星酒店...

预售35万起...

创业者要做到...

特朗普：“国...

TCL科技110亿元收购LG Display中国业务

30岁TVB人气小花辞演《新闻女王2》感可惜：希望可以有第三部

女子刚分的新房开着条缝进门后发现地上有烧纸的灰烬

美推进“金穹”系统的天基拦截器研制但钱和技术都存在问题

贾跃亭发布大消息：旗下机器人业务重大进展

《一饭封神》刚开火，《百厨大战》就上灶，各大卫视开始卷厨综了

NBA战报：凯尔特人115-101公牛取NBA4连胜，安芬尼-西蒙斯27+3+3

加沙超50万人陷入饥荒以军或9月中旬攻加沙城

被截胡，赫塔费主席曾称谈妥了穆尼奥斯，但球员去了奥萨苏纳

eSIM来了，但还在来的路上

0-2！中超领头羊丢尽颜面，连续9场不胜日本球队，还沦为亚冠垫底

涨价带不动业绩，“黄酒双雄”上半年刹车，古越龙山净利润被会稽山反超

丰田辟谣与比亚迪技术合作，网友的评论，能让丰田章男能背过气去

毒枭留下的80头河马被捕杀前获救亚洲富豪：我全要了

戴奇：阿森纳不只靠定位球得分；与津琴科沟通过提前结束租借

媒体：被美国逼着“朝中国开枪” 韩国玩得起吗

国产纯电SUV三代，全新蔚来ES8要来了

曼联阻止青训新福登过早首秀！担心重蹈青木覆辙，目前不适合登场

沃什被提名次日特朗普:不降息就把他告到裤子都不剩

临危受命18个月，横琴人寿董事长或“功成身退”！

P图只用一句话，小米超级小爱AI大模型“随心修图”上线

开扒女明星穿了5年以上的外套，原来都有一个共同点

中国对日本政府发出第一道制裁令暗示了高市早苗结局

北京拿下“五万亿之城”，为何还成了AI之城？

OpenAI前总监最新观点：强化学习在AI领域很强，但不是终极答案

美国务卿：希...

175款智慧...

三亚五星酒店...

预售35万起...

创业者要做到...

特朗普：“国...

TCL科技110亿元收购LG Display中国业务

30岁TVB人气小花辞演《新闻女王2》感可惜：希望可以有第三部

女子刚分的新房开着条缝 进门后发现地上有烧纸的灰烬

美推进“金穹”系统的天基拦截器研制 但钱和技术都存在问题

贾跃亭发布大消息：旗下机器人业务重大进展

《一饭封神》刚开火，《百厨大战》就上灶，各大卫视开始卷厨综了

NBA战报：凯尔特人115-101公牛取NBA4连胜，安芬尼-西蒙斯27+3+3

加沙超50万人陷入饥荒 以军或9月中旬攻加沙城

被截胡，赫塔费主席曾称谈妥了穆尼奥斯，但球员去了奥萨苏纳

eSIM来了，但还在来的路上

0-2！中超领头羊丢尽颜面，连续9场不胜日本球队，还沦为亚冠垫底

涨价带不动业绩，“黄酒双雄”上半年刹车，古越龙山净利润被会稽山反超

丰田辟谣与比亚迪技术合作，网友的评论，能让丰田章男能背过气去

毒枭留下的80头河马被捕杀前获救 亚洲富豪：我全要了

戴奇：阿森纳不只靠定位球得分；与津琴科沟通过提前结束租借

媒体：被美国逼着“朝中国开枪” 韩国玩得起吗

国产纯电SUV三代，全新蔚来ES8要来了

曼联阻止青训新福登过早首秀！担心重蹈青木覆辙，目前不适合登场

沃什被提名次日 特朗普:不降息就把他告到裤子都不剩

临危受命18个月，横琴人寿董事长或“功成身退”！

P图只用一句话，小米超级小爱AI大模型“随心修图”上线

开扒女明星穿了5年以上的外套，原来都有一个共同点

中国对日本政府发出第一道制裁令 暗示了高市早苗结局

北京拿下“五万亿之城”，为何还成了AI之城？

女子刚分的新房开着条缝进门后发现地上有烧纸的灰烬

美推进“金穹”系统的天基拦截器研制但钱和技术都存在问题

加沙超50万人陷入饥荒以军或9月中旬攻加沙城

毒枭留下的80头河马被捕杀前获救亚洲富豪：我全要了

沃什被提名次日特朗普:不降息就把他告到裤子都不剩

中国对日本政府发出第一道制裁令暗示了高市早苗结局