关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro389人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

零件细节曝光 新款奔驰S级将于2026年推出

车质网 浏览 285

科技感爆棚 大众ID. ERA 9X内饰官图发布

车质网 浏览 165

避免引发恐慌 中东多国收紧社媒敏感信息管控

环球网资讯 浏览 165

“锂王”炒股,赚了111万,赔掉2000亿

大猫财经Pro 浏览 1198

22个州经济正在萎缩,消费者信心持续下跌,多家机构警告美国经济衰退

环球网资讯 浏览 782

专访苹果副总裁:一个小红书博主,该用什么样的苹果工具?

爱范儿 浏览 239

全球第二,欣旺达,再冲固态电池!

飞鲸投研 浏览 1099

最高8.8分!盘点2025年评分最高的10部电影

林木体育解说 浏览 271

大相径庭,维拉上赛季英超前五轮过后高居第3,本赛季仅第18

直播吧 浏览 367

原来他就是白百何的二婚老公,难怪能逆风翻盘

情感大头说说 浏览 15

笑不活了!网友集体冲进李亚鹏账号评论区,各种神评涌现太离谱!

娱乐圈笔娱君 浏览 408

“电车不能跑长途”这事,到这里翻篇了

汽车公社 浏览 77

德媒称冯德莱恩将参选德国总统 欧盟发言人回应

环球时报国际 浏览 486

3000马力!百万售价! 仰望U9赛道版比高铁快

车毂轆 浏览 437

政府“停摆”持续,美国家核安全管理局千余名员工将被强制休假

界面新闻 浏览 1472

4战狂胜266分!韩旭14+8四川全运女篮大胜辽宁 头名进八强

醉卧浮生 浏览 307

泽连斯基:前线局势愈发艰难

界面新闻 浏览 315

戏骨许绍雄去世,身家上亿却穿百元衣吃路边摊

八卦南风 浏览 361

莫迪乘普京专车共同前往双边会晤地点 车上交谈一小时

澎湃新闻 浏览 502

哈梅内伊遇袭身亡 被指已指定暂代最高领袖责任人选

新民周刊 浏览 161

林丹西班牙庆生画面:9 岁儿子举动看哭网友

东方不败然多多 浏览 364
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4