关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro539人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

韩庚官宣生子，撕开了鹿晗和关晓彤的体面？

包饺子ai剪辑浏览 471

德约六王赛退赛向观众道歉遭网友怒喷来捞钱，球迷用成绩狠狠打脸

网球之家浏览 476

奇瑞汽车12月销量超23万辆同比减16%，2025全年超263万辆

IT之家浏览 374

精彩推荐

美官员：已收到伊朗通过巴基斯坦转交的谈判新方案

界面新闻浏览 197

全尺寸纯电稀罕物问界M8纯电版售35.98-44.98万

网易汽车浏览 596

美联储降息、买短债，鲍威尔偏鸽，美股、短期美债、黄金涨，美元跌，比特币震荡

华尔街见闻官方浏览 1273

理想首曝自研芯片、舆情防御、新车计划

车东西浏览 591

东风风神L8成都车展上市限时置换价11.39万元起

网易汽车浏览 589

美称空袭叙利亚西北部打死一名与“基地”组织关联头目

新华社浏览 377

普京:俄罗斯将在战场解放本国故土欧洲＂猪猡＂将下台

参考消息浏览 349

经典之上再造经典 BJ40探险家上市 13.49万元起

网易汽车浏览 408

俩小伙卖给美军无人机：建＂无中国＂供应链太难了

澎湃新闻浏览 472

李鬼变李逵？央视揭开温峥嵘骗局真相

烈史浏览 462

拒绝捧杀！理想i6即将发布，高管亲自下场辟谣！

电车通浏览 587

不少老人宁愿挨冻也不敢开暖气，让人痛心！河北农村取暖问题，不能再耽搁了

每日经济新闻浏览 887

高市为当首相对维新会大幅让步接受其数个＂绝对条件＂

极目新闻浏览 479

一夜翻盘，炫富网红蓝战非复活了

TVB的四小花浏览 501

零跑冲击月销6万！蔚来反超理想，小鹏紧追问界，新势力分化加剧

车东西浏览 653

德媒：面对美军进逼委内瑞拉亮出俄制武器

参考消息浏览 452

砸1亿元跨界，百亿巨头老板电器杀入机器人赛道

尺度商业浏览 2151

应采儿携子伦敦地铁，13岁Jasper摘牙套十分帅气

凉湫瑾言浏览 309

波兰称考虑禁止中国电动汽车进入其军事基地中方回应

财联社浏览 385

软银清仓英伟达，孙正义套现415亿

YOUNG财经浏览 5464

65岁林俊贤广东景区打工，年过6旬老成“龙王”，努力赚钱不丢人

温柔娱公子浏览 479

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
闽ICP备16027347号-4