关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪432人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

见好就收?年末基金“攻守战”,基金经理操作不一

券商中国 浏览 2666

联合杯贝尔赫斯首胜阿利亚西姆

体坛周报 浏览 81

穆勒:我认为这场美职联决赛非常棒;再次见到梅西他们很开心

懂球帝 浏览 153

保时捷纯电卡宴即将首发,PPE平台打造

车评网 浏览 192

外媒:俄国防部称击溃一支乌克兰特种部队

环球网资讯 浏览 187

外观方正硬朗 三菱全新SUV预告图曝光

车质网 浏览 96

成功冲乙,厦门壹零贰陆主帅:厦门是一座有足球底蕴的城市

懂球帝 浏览 227

剑南春丨曼联1-1利兹联,阿伦森破门,齐尔克泽助攻库尼亚扳平

懂球帝 浏览 117

香港闹市发现二战时期美军投射炸弹 耗时12个小时拆除

新民周刊 浏览 296

邦本宜裕:给自己本赛季表现打100分,本来想完成20个助攻

懂球帝 浏览 178

奔四奔五的女人,冬日掌握了这些穿搭宝典,才能优雅不冻人

静儿时尚达人 浏览 121

理想汽车线上全员会,员工表示“听不懂”

财视传播 浏览 828

年底交付 兰博基尼Temerario即将国内上市

车质网 浏览 69

经济回稳向好的趋势没有变

证券市场周刊 浏览 8765

跟大北农一起过个丰收节!今年的丰收味儿有点“新”

一点财经 浏览 13241

西安市委书记方红卫任上落马 7月刚表态韩松被查

鲁中晨报 浏览 320

有野心有手段的大女主有多能打?

雪豹财经社 浏览 567

刘亦菲慷慨捐款150万助力香港,助力灾后重建与心理支持

茶韵浮生 浏览 184

今年春天最流行的4件卫衣,照着穿就很好看

LinkFashion 浏览 2

伊姐周六热推:电影《再见,坏蛋》;电视剧《定风波》......

伊周潮流 浏览 335

马筱梅罕谈大S过去,撕碎S家仅剩的“体面”?

有趣的胡侃 浏览 202
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4