关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪606人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赵丽颖为母则刚,怼媒体偷拍儿子正面

农村娱乐光哥 浏览 452

零跑销量相当于小米与理想之和——属于老实人的胜利

DearAuto 浏览 332

特朗普扬言要撒"关税红利":反对关税的人都是傻瓜

财联社 浏览 341

谁说冬天不能穿裙子?照着搭美出新高度

LinkFashion 浏览 315

委内瑞拉谴责美军扣押委油轮:国际海盗行为

环球网资讯 浏览 284

出海容易融入难:中国品牌出海的公关挑战与破局

金角财经 浏览 934

新奥能源研究院院长刘敏胜:探索球形环氢硼聚变技术,开发商用聚变能源

红星新闻 浏览 375

刚刚,全线大反攻!发生了什么?

券商中国 浏览 720

刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面

情感大头说说 浏览 242

李想拯救理想

定焦One 浏览 1320

标配第五代DM技术 腾势D9新品将于成都车展上市

网易汽车 浏览 480

比起雷军造车,刘强东造车或许才是更聪明的方式?

BT财经 浏览 27499

三星 Exynos 芯片被曝放大招:5G 基带将首次集成 AI 核心

IT之家 浏览 393

现在穿v领毛衣,刚好

Yuki女人故事 浏览 379

行业「寒风」尤劲,龙头企业华润三九能否「独善其身」

节点财经 浏览 1223

雷军,这次不对劲

创业家 浏览 1268

开演唱会!加入新公司!赵露思迈入新篇章

勺哥乡村味道 浏览 329

看完10集《太平年》,我头皮发麻,终于有人把“牵羊礼”拍出来了

娱乐圈笔娱君 浏览 248

再次掀翻AI圈!Sora2面前,MiniMax的另类打法

南方都市报 浏览 340

郭富城夫妇合体看赛马,透露三胎预产期

疯说时尚 浏览 385

暴涨220%牛股!301040,筹划控制权变更!今日停牌

中国基金报 浏览 1255
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4