关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪507人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

蚂蚁集团AQ品牌升级为“蚂蚁阿福”

半岛晨报 浏览 177

山西多地连续阴雨致农作物发霉 当地要求"抢收抢种"

极目新闻 浏览 291

特朗普要求日本停止进口俄罗斯能源 高市早苗当面拒绝

鲁中晨报 浏览 254

俄罗斯将对多艘核潜艇进行改造

国际在线 浏览 387

柬埔寨"太子集团"资产又遭冻结 豪车公寓总值超35亿元

红星新闻 浏览 300

敛财3.16亿、搞权色钱色交易的"海南虎"被判死缓

政知新媒体 浏览 402

乘联分会崔东树:2025年汽车以旧换新规模预计超1800亿元

IT之家 浏览 202

全球首家!速腾聚创(02498)全栈自研数字激光雷达芯片通过AEC-Q认证,技术断代领先

智通财经 浏览 308

泽连斯基称乌方已妥协不加入北约 俄方发声

每日经济新闻 浏览 211

黄仁勋亲赴台积电“讨要更多芯片” 回应存储短缺、涨价等问题

财联社 浏览 1049

泡泡玛特创始人王宁:本周将发售迷你版LABUBU

网易科技报道 浏览 403

外媒:中法元首会谈议题十分广泛 似乎找到更多共识

环球网资讯 浏览 227

期待早日复出!网友更新动态,偶遇郑钦文在球场训练

直播吧 浏览 409

记者谈马宁连出三红:密集出牌虽彰显权威,却也容易激化矛盾

懂球帝 浏览 309

租电版售价5.28万元 埃安UT系列永冲锋版上市

网易汽车 浏览 138

俄方:普京即将开启的访华之旅"史无前例"

参考消息 浏览 420

这部创造口碑和票房奇迹的悬疑佳作十周年啦

幕味儿 浏览 315

出生人口跌破800万,养老金怎么办?

智本社 浏览 993

沈逸:谁尊重历史谁背叛历史 观礼名单写得一目了然

澎湃新闻 浏览 430

春树导演制片人回应争议,否认靠卖惨打动白百何,短信内容曝光

扒虾侃娱 浏览 264

消息称三星Galaxy S27 Ultra将搭载更安全的Polar ID面部识别技术

IT之家 浏览 116
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4