关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro326人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

央视这波选剧真是绝了!整部剧均是整容脸,能看下去的都是能人!

肆季娱乐 浏览 159

"最强大脑"齐聚临港 上海正搭建未来科学共同体

看看新闻Knews 浏览 261

下辈子换我长郑恩彩这样好吗?

时尚COSMO 浏览 235

伊姐周六热推:《长安二十四计》;电视剧《唐诡奇谭》......

伊周潮流 浏览 178

曾1600元一粒难求的片仔癀,如今跌至六七百元!药房:买得多可以优惠

红星资本局 浏览 1256

5名中国游客在巴厘岛车祸死亡 伤者:司机一点伤没有

扬子晚报 浏览 238

硬核揭秘!福建舰“一马当先”底气何在

环球网资讯 浏览 85

贡多齐:尤文目前的状态并不理想,我们有足够的实力击败他们

懂球帝 浏览 292

协助拦截伊朗无人机 乌克兰遭“敲打”

极目新闻 浏览 75

霍启山晒C罗合影!年过40越来越帅,被家族重用

勺哥乡村味道 浏览 425

小品类也能撬到大生意,谁成为商家的“赚钱搭子”?

陆玖商业评论 浏览 2122

支持家乡球队,网球球员吴易昺来黄龙体育场观战浙江vs山东

懂球帝 浏览 305

博主:此前杨瀚森屡屡被DNP时,很多当地球迷都要求退季票

懂球帝 浏览 167

内塔尼亚胡:加沙非军事化前 不会允许重建

新京报 浏览 167

美股半导体板块,集体下跌

第一财经资讯 浏览 145

郑中基疑似新恋情,和异性现身游乐场

素素娱乐 浏览 97

2025年利润在4%徘徊,车圈是从从容容还是连滚带爬‌?

禾颜阅车 浏览 207

又一国产车企官宣:正式全面停产、停售燃油车!

电动知家 浏览 136

特朗普:泰柬同意全面停火

国际在线 浏览 199

4岁走失女童找到 参与救援的派出所所长在孩子旁边哭

极目新闻 浏览 290

全国高校最强国产算力:“致远一号”搭载1024张华为昇腾910B

IT之家 浏览 206
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4