关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro307人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:高市早苗被批"日本之耻" 特朗普一来人设绷不住

澎湃新闻 浏览 256

新款本田飞度有望26年1月上市 全新外观设计

太平洋汽车 浏览 154

大鹏工业:外购标准件采购占比超七成 自研的被评奖项目背后现客户

金证研 浏览 1138

理想汽车,又打了一场翻身仗?

电动势 浏览 225

在特斯拉model Y和小米 YU7里二选一,怎么选?

蜗牛车志V 浏览 122

vivo、OPPO“大炮对轰”:手机为何卷成相机?

北京商报 浏览 322

女人年纪大了要减龄,偷学这3个穿搭秘籍,优雅又有气质

静儿时尚达人 浏览 381

大厂们掀起春节大战:狂撒10亿红包,只为争夺AI时代「新船票」?

雷科技 浏览 120

会穿蕾丝的女人,恰似一朵“人间富贵花”

LinkFashion 浏览 371

中秋看热巴的嫦娥装,又双叒叕被撩到了

时尚COSMO 浏览 287

名记:穆阿尼将继续留在热刺,尤文今夏将再次尝试引进他

懂球帝 浏览 90

以军夜间大规模空袭加沙城 坦克已入城

每日经济新闻 浏览 324

大型断舍离后,这4类东西我不会轻易再买

黎贝卡的异想世界 浏览 269

美国11月ISM制造业PMI萎缩幅度创四个月最大,就业进一步收缩,价格涨

华尔街见闻官方 浏览 2883

特朗普建议高市不要在台湾问题上挑衅 通话细节披露

极目新闻 浏览 204

泰柬两国密集表态说法大相径庭 泰国称不会停止行动

环球网资讯 浏览 162

北青:中国女足亚洲杯首战主裁来自泰国,已分析摸底孟加拉

懂球帝 浏览 62

货车司机在高速服务区猝死 妻子:跑车4个月只回家2次

红星新闻 浏览 232

男子疑心梗住院被急诊医生误诊 转入普通病房后身亡

大风新闻 浏览 109

李在明:韩美联合演习无意加剧半岛紧张局势

环球网资讯 浏览 432

徽商银行再次大幅扩员、人均年薪35.84万,董监高整体降薪12%

湘财Plus 浏览 9369
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4