关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪488人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

40岁的他,是世界徒手攀岩第一人,也是风险管理大师|中企荐读

中国企业家杂志 浏览 929

娶妻当娶贤,郭晶晶让霍启刚婚后步步高升

老搽学科普 浏览 566

E句话 | 这对CP居然还谈着?

仙女事件簿 浏览 404

全红婵换新发型!在老家摘草莓好惬意

无处不风景love 浏览 143

存在银行保管箱百万物品不翼而飞 银行:保管箱锁完好

上游新闻 浏览 176

将于2027年上市 AMG CLA猎装车谍照曝光

车质网 浏览 161

德云社元老人物离开,发文内涵郭德纲?

访史 浏览 363

加入六座SUV混战,吉利银河开启AI新叙事

经济观察报 浏览 326

杨旭文不再隐瞒!公开回应与陈若琳的关系?

喜欢历史的阿繁 浏览 195

海盗船发布《使命召唤:黑色行动 7》联名外设,含键盘等多款产品

IT之家 浏览 243

台湾艺人修杰楷、陈柏霖涉嫌逃避兵役被台检拘提问话

界面新闻 浏览 263

韩华航空航天公司与挪威签署9.22亿美元火箭发射器供应合同

财闻 浏览 121

被Meta点醒,苹果砍掉廉价头显,押注智能眼镜

网易科技报道 浏览 283

景德镇瑶里古镇收门票引发不满 村民纷纷指引游客逃票

极目新闻 浏览 472

纳瓦拉同平台/油耗6.8L 郑州日产金锐骐上市8.68万元起

网易汽车 浏览 125

美财长公然挑拨中阿关系:米莱承诺"让中国退出阿根廷"

环球网资讯 浏览 303

金球奖红毯:小李子越老越有味

娱乐圈笔娱君 浏览 128

特斯拉撞树后打不开车门 5人被困燃烧的车内身亡

每日经济新闻 浏览 1151

2025秋冬十大流行趋势

LinkFashion 浏览 402

王祖贤隐退真相曝光!王晶坦言两点

妙知 浏览 249

宗馥莉“被带走”?谣言背后,一个内讧的娃哈哈

大猫财经Pro 浏览 311
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4