关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪601人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

河南"妻儿三人被发小杀害案"宣判:被告人获死刑

红星新闻 浏览 283

孙怡忍3天憋大招,把江语晨笑出鹅叫声

卓小月娱乐圈 浏览 28

古装黑马诞生!《子夜归》刚播热度破24000!观众集体真香预警

娱乐圈笔娱君 浏览 507

斯基拉:新未来城体育开启谈判,试图以4000万欧签下米卡塔泽

懂球帝 浏览 405

同意吗?蒂格谈雷霆队史最佳球员:SGA第一 威少第二 KD第三

直播吧 浏览 458

泽连斯基:美提议举行美俄乌国家安全顾问级别会议

国际在线 浏览 263

尼克斯129-101送黄蜂7连败,布伦森33分,哈特22+8+7

懂球帝 浏览 332

约谈风波后岳云鹏用一句话,让德云社口碑翻盘了

东方不败然多多 浏览 277

福特烈马增程版申报信息曝光: 1.5T增程+弗迪电池

网易汽车 浏览 431

10月新势力销量爆发:零跑首破7万辆,小米稳超4万辆,理想猛跌38%

21世纪经济报道 浏览 338

外放电加大到30kW,长安猎手K50激战新能源皮卡赛道

经济观察报 浏览 463

AI春节大战 阿里30亿元跟进:要流量更要消费生态

北京商报 浏览 190

伊朗最高领袖重申“将向敌人索赔”

国际在线 浏览 122

凑齐“56789”!问界独占鸿蒙智行7成销量,“5界”如何共扛百万辆目标?

时代周报 浏览 1021

限时先享价25.98万元 吉利银河M9黑金智曜版上市

网易汽车 浏览 90

死亡人数增至44人!香港大埔火灾背后的宏福苑已42年楼龄

红星新闻 浏览 4813

2026款ICON巧克力"心动紫"上市 限时7.98万起

网易汽车 浏览 335

内塔尼亚胡计划全面占领加沙

澎湃新闻 浏览 481

阿莱格里:有的球员值1亿有的值100万,让1亿的上就是容易赢

懂球帝 浏览 251

何小鹏“扒皮”验真身 国产人形机器人“摊牌了”

汽势传媒 浏览 335

投资界“扫地僧”段永平,因“太懒”持股躺赢千亿

花朵财经 浏览 1373
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4