关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro211人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马年“春晚”排成这样,我断言:观众看完,会站起来鼓掌

皮皮电影 浏览 125

从每天只睡4小时到8小时:一个失眠者的自救指南

黎贝卡的异想世界 浏览 2

拉科布声明未来2年所有人将在一起 这意味着勇士不引援了?

仰卧撑FTUer 浏览 211

70后“黎杨配”新组合首交“考卷”,广西北部湾银行2024年业绩如何?

Daily每日财报 浏览 3594

美国驻卡塔尔乌代德空军基地部分人员被建议周三晚前离开

环球网资讯 浏览 94

冬天别只穿厚重的羽绒服,看看这些大衣穿搭,高级大方又有质感

静儿时尚达人 浏览 98

媒体:高市早苗当选首相 对华采取挑衅措施的可能提升

界面新闻 浏览 226

国产光刻胶攻坚提速,2026年有望爆发!扬帆新材等企业领跑突围

览富财经网 浏览 1558

天津警察学院两干部论文查重率超70% 校方:官方没认定

澎湃新闻 浏览 126

白银50天涨逾80%,疯狂程度远超黄金,历史上爆炒白银往往预示贵金属牛市已到高潮,这次有何不同?

每日经济新闻 浏览 1805

纯电出行迎拐点!蔚来广州车展披露补能网络新进展

大象新闻 浏览 146

巴基斯坦与沙特阿拉伯签军事协议 多国受震动

环球网资讯 浏览 296

湖北U20 1-0山东U20,范绪林点射制胜

懂球帝 浏览 175

智元精灵G2机器人正式发布,已获得数亿元订单

三言科技 浏览 237

移植新款S63 AMG底盘动力,千匹奔驰600 Pullman

玩车改装分享 浏览 100

这件外套好火,迫不及待想穿上了!

黎贝卡的异想世界 浏览 204

“这顶帽子”太火了,今年流行的风格都离不开它

LinkFashion 浏览 112

2025年,他们集齐了十二枚臂章

我们的太空 浏览 105

动力系统升级 新款方程豹豹5谍照曝光

车质网 浏览 257

蔚来:即日起全系标配100度电池包,BaaS方案ET5/T进入19万元级

IT之家 浏览 310

阿斯:皇马想延续阿拉巴和吕迪格的成功,以免签的方式签中卫

懂球帝 浏览 65
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4