关闭广告

OpenAI前总监最新观点:强化学习在AI领域很强,但不是终极答案

爆角追踪113人阅读

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。


这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。

这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案:

1. 长任务的局限性(渐进问题):

当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特斯拉Cybertruck雨刮器像"巨型湿面条",功率高达1KW

IT之家 浏览 4089

普京慰问伤兵称"受过炮火洗礼者将在俄军中任要职"

环球网资讯 浏览 7613

ESPN:普利西奇与米兰原则性谈妥个人条款,但转会费未谈妥

直播吧 浏览 6928

詹姆斯经纪人旗下球员三人首日席卷3.9亿美元!范弗里特3年1.3亿

Emily说个球 浏览 6952

北京算力巨头,掏150亿收购

21世纪商业评论 浏览 4369

与大14岁男友结婚且双喜临门?黄心颖晒照吐心声

高能E蓓子 浏览 6143

印度吸血失败!俄罗斯不要卢比只要人民币

云掌财经 浏览 10810

阿尔巴赛后发文:争取赢下决赛!

直播吧 浏览 5950

TCL发布超薄零嵌冰箱T9首发价格3499元

网易科技报道 浏览 11088

90后小伙1家3口干瓦工日薪2000元 已经买车买房

极目新闻 浏览 30146

网红宝妈发烧4天去世 丈夫讲述经过:6次抢救未能救回

上游新闻 浏览 31377

美舰穿航台湾海峡东部战区回应了什么?到底是怎么回事?

趣看热点 浏览 166221

中俄朝三国领导人将首次一起公开亮相 美媒:罕见

扬子晚报 浏览 38

卖7.98万元?!比亚迪两款车或推出“荣耀版”!

汽车之家 浏览 3623

采用极简设计风格 方程豹钛7内饰官图发布

车质网 浏览 62

孙莉晒视频:小女儿长高许多 黄磊与儿子有爱互动

笑猫说说 浏览 10833

草根出身的“苦命女星”,41岁怀孕,落子无悔却人人替她冤屈

娱乐白名单 浏览 4242

30岁提前"垮脸"?一篇拯救40+熟龄肌

言安堂 浏览 6240

媒体:乌克兰危机给欧洲上了一堂代价高昂的现实政治课

环球时报新闻 浏览 49

中微公司上半年净利润翻番,调整多位核心技术人员,三位副总被调出名单

澎湃新闻 浏览 6911

病毒学家李文辉:打开乙肝病毒之门

经济观察报 浏览 139
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4