关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪603人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

贝巴:每个人都能轻易批评球员,但我们需要的是建设性的批评

懂球帝 浏览 334

国外产子,知三当三,江疏影传闻哪个是真的

黔乡小姊妹 浏览 79

传统豪车集体“逃离”成都车展

道哥说车 浏览 534

中航科工2025年上半年收入双位数增长

证券市场周刊 浏览 871

猛龙7人上双四杀老鹰:巴恩斯18+8+10 杰伦13+14+7+6失误

醉卧浮生 浏览 283

OPPO AI战略曝光!全场景、全链路,要把 AI 做成系统?

雷科技 浏览 378

第三届CATA航空大会在京举办

北京商报 浏览 355

最高续航达610km 江铃羿驰05S上市售9.79万元

网易汽车 浏览 364

"暴躁十亿姐"被封号:自称润田创始人妻子 老公4婚5娃

极目新闻 浏览 419

特朗普:将与普京“试探性会晤” 告诉他结束战争

每日经济新闻 浏览 511

零跑业绩向好 朱江明持股增加

汽势传媒 浏览 383

同济发布全球首部《工程智能白皮书》,发起“国际工程智能联盟”全球倡议

上观新闻 浏览 327

巴菲特大举买入谷歌,股神为何爱上科技股?

郭施亮 浏览 7161

曹骏舒畅世纪同框,蓝盈莹自食恶果,高低立判!

情感大头说说 浏览 237

每体:亚马尔或将继续缺席下一轮西甲比赛;库巴西问题不大

懂球帝 浏览 455

王大陆离奇“闪兵”案,搞垮半壁台娱圈

仙女事件簿 浏览 357

为什么最好全款买蔚来ES8,也不要贷款分期买?套路实在太多了

大志聊车 浏览 292

李小鹏女儿14岁奥莉近照刷屏!真是女大十八变

今古深日报 浏览 109

金莎被小19岁的男友戴绿帽子?

Yuki女人故事 浏览 482

杨采钰破防回怼网友!被曝没领证给人当小老婆,本人反驳:离大谱

萌神木木 浏览 470

美联储降息25基点 预计2026年降息一次

网易财经 浏览 1201
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4