关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪605人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拉什福德渴望永久转会愿大幅降薪!暗讽曼联,称巴萨让他重获新生

罗米的曼联博客 浏览 377

足总杯首发出战,塞门约迎来代表曼城的首场比赛

懂球帝 浏览 246

2025年度年代神剧《生万物》:女性群像的魅力,拉高追剧审美!

娱乐圈笔娱君 浏览 496

海外投资者争做基石!摩根大通:中国药企全球竞争力提升,投融资持续活跃

券商中国 浏览 1305

集微咨询发布《2025中国半导体后道设备行业上市公司研究报告》;

爱集微 浏览 272

神舟二十号飞船推迟返回 疑似遭空间微小碎片撞击

极目新闻 浏览 377

2025世界青年科学家峰会聚焦开放合作

新华社 浏览 351

专访朱江明:零跑汽车是一只“乌龟”

中国企业家杂志 浏览 1008

德转:24岁马里中场孔特加盟北京国安,球员身价55万欧

懂球帝 浏览 207

推广中奖名单-更新至2025年10月10日推广

黎贝卡的异想世界 浏览 302

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

环球网资讯 浏览 291

人类会彻底沦为无用阶级吗?

虎嗅APP 浏览 3018

吉利银河 A7 逆袭称王 单周狂甩 4195 辆

大象新闻 浏览 491

达成协议!加拿大航空业罢工结束

国际金融报 浏览 1051

劝中国原谅日本的黄循财被扒出家族史 祖父靠日军吃饭

博览历史 浏览 264

专家:美对委行动或成未来对付其他"不听话国家"的先例

澎湃新闻 浏览 241

全球首家!速腾聚创(02498)全栈自研数字激光雷达芯片通过AEC-Q认证,技术断代领先

智通财经 浏览 389

止步“五连涨”!美股12月“开门黑”

中新经纬 浏览 2957

最火的赛道,独角兽撑不下去了?

中国新闻周刊 浏览 239

帕尔马重逢马佐基,三连升的小将

绿茵情报局 浏览 124

英伟达推出智驾AI大模型 马斯克泼“现实冷水”

网易汽车 浏览 259
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4