关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪433人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

老干妈,还得靠老妈

华商韬略 浏览 751

Stellantis,“分”或许比“合”好

禾颜阅车 浏览 205

海南华铁“失算”疑云:36.9亿元“三无”合约终止,阿里云前高管参与,“牛散”结伴进退

证券时报e公司 浏览 526

威尔逊FMVP实现大满贯:美媒晒6荣誉高呼GOAT 现场与队友一同舞蹈

颜小白的篮球梦 浏览 226

世体:梅西在进入诺坎普前没联系巴萨的任何人请求许可

懂球帝 浏览 152

米体:普利希奇将接受医疗检查,阿莱格里和米兰对美国队不满

懂球帝 浏览 239

步行者无悬念留下卡莱尔 联盟第一主帅新季迎挑战

体坛周报 浏览 351

泽连斯基称乌试射目前"最成功导弹" 射程达3000公里

扬子晚报 浏览 314

福原爱首次回应再婚怀孕 现任丈夫正是出轨风波男主

新民周刊 浏览 162

男子取170万元现金 在银行门口遭抢劫致重伤左眼失明

扬子晚报 浏览 156

国家外汇管理局副局长刘斌:研究长期限、多品种、小币种等外汇市场发展问题|2025外滩年会

国际金融报 浏览 1156

一辆小米SU7 Ultra飞坡10多米翻滚多圈!车主发文:感谢雷军,下辆还买!

扬子晚报 浏览 218

VOGUE热捧刘亦菲被反噬,20周年众多大咖不出席,场面太尴尬!

萌神木木 浏览 233

赵丽颖、黄晓明《小城大事》配角团“杀疯了”

肆季娱乐 浏览 116

镜报:格拉利什对阵曼城需要回避,这让英超的公平性受到损害

懂球帝 浏览 252

厄德高谈晋级世界杯:这种感觉无法用语言形容,简直疯狂至极

懂球帝 浏览 167

Veritas67-62科罗拉多预科,张博源砍26分+6记三分率队取胜

懂球帝 浏览 131

黄安称歌手千百惠病逝 她曾晒出大陆身份证

南方都市报 浏览 369

采用东风汽车平台 Jeep计划推出全新车型

车质网 浏览 244

委内瑞拉强烈反对“美国封锁空域”

国际在线 浏览 129

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 184
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4