关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪508人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子登山骨折花6万找10人抬下山:他们开的价 我没还价

扬子晚报 浏览 447

华盛顿大学与耶鲁大学联手:医疗数据库为何让顶尖AI模型"抓狂"

科技行者 浏览 155

环球:日本导弹距中国台湾仅110公里 此动向极其危险

环球时报新闻 浏览 273

台学者:台当局不办光复节活动 人民无法接受

环球时报新闻 浏览 267

慕黑会上,万斯火力全开嘲讽惊呆欧洲

浏览 603

巴列卡诺2-1马略卡,帕拉松点射、德弗鲁托斯破门

懂球帝 浏览 163

新增激光雷达 2026款比亚迪夏官图发布

车质网 浏览 259

约旦基地美军战机骤增 包括F-35隐形战斗机

上观新闻 浏览 86

官方:尤文签下曼城19岁前锋奥博阿夫沃多,球员将加入新一代

懂球帝 浏览 123

好家伙!51岁的吴京翻车了?到底动了谁的奶酪,全网黑评一片沦陷

娱乐圈笔娱君 浏览 387

米兰球员身价变更:帕夫洛维奇+1000万,巴尔泰萨吉+1500万

懂球帝 浏览 222

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

伊周潮流 浏览 243

12.88万元/650km长续航 埃安RT 650智享版上市

网易汽车 浏览 527

iPad mini劲敌!华为MatePad Mini官宣9月4日发布:首款旗舰小平板

快科技 浏览 393

德转:24岁马里中场孔特加盟北京国安,球员身价55万欧

懂球帝 浏览 97

加里-麦卡利斯特:林德斯是纯粹的足球人;杰拉德还会再执教

懂球帝 浏览 249

于正怒了!状告百万网红大V索赔50万

裕丰娱间说 浏览 235

女友BELLA+封面 | BossNoeul:爱的回声

伊周潮流 浏览 353

维尔茨:能庆祝自己的成就时很不错,我喜欢在安菲尔德踢球

懂球帝 浏览 143

杨振宁逝世享年103岁 清华大学沉痛悼念

北京青年报 浏览 295

中海成都谋变?曝开发公司连亏2年,桐梓林28亩项目寻合作

密探财经 浏览 5873
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4