关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro538人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

别克至境首款轿车预告，再不来就被市场忘了

车动态浏览 719

甲骨文盘中涨超6%，华尔街"抄底派"料股价有望反弹90%

华尔街见闻官方浏览 5010

国投瑞银被起诉背后

时代周报浏览 1173

精彩推荐

国米本赛季11粒进球中4粒来自角球，身高超1.88米的球员有10位

直播吧浏览 482

日本太空航母野心披露被指正谋划“太空珍珠港事件”

极目新闻浏览 397

小马智行开通广州自动驾驶示范运营专线

环球网资讯浏览 813

美国11月ISM制造业PMI萎缩幅度创四个月最大，就业进一步收缩，价格涨

华尔街见闻官方浏览 3163

她用整整十二年，打捞出鲜活的大师影迹

幕味儿浏览 472

三亚五星酒店再现10万房价有人1折买3件奢侈品花1250

时代财经浏览 381

九三“大阅兵”重磅来袭，新一代武器装备“引爆”A股军工板块

览富财经网浏览 2564

表现不稳，世体：巴萨对巴尔德和孔德当前展现的水平感到担忧

懂球帝浏览 378

大疆 DJI Mini 5 Pro 无人机宣传物料曝光：1 英寸传感器

IT之家浏览 554

打破垄断，利润狂飙200%，机器人独角兽，一骑绝尘！

飞鲸投研浏览 4308

上海AI实验室ImgCoder：AI实现科学手绘图精准生成

科技行者浏览 353

乔伟光：从中乙打回中超，我一生引以为荣，没给青岛丢人

懂球帝浏览 160

媒体：不客气地说荷兰是在全球面前抢劫中国企业

环球网资讯浏览 480

汇源官方旗舰店及多个电商平台空无一物客服回应

大风新闻浏览 590

库克直播间带货苹果换了打法

北京商报浏览 493

章泽天播客表现大翻车！采访接不上话脑袋空空，学霸人设遭质疑

萌神木木浏览 394

今年秋天最火的穿法：裤子+裙子，谁穿谁好看！

LinkFashion 浏览 625

《黑神话》背后的海马云，冲刺港股打持久战

斑马消费浏览 13935

内饰迎巨变新款奥迪Q4 E-Tron最新消息曝光

乐选爱车浏览 201

伊姐周六热推：电影《再见，坏蛋》；电视剧《定风波》......

伊周潮流浏览 599

美特使被指教俄外交官＂吹捧＂特朗普美媒披露通话记录

澎湃新闻浏览 442

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
闽ICP备16027347号-4