关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro268人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

每月抽查5%商家 外卖平台“新国标”落地

北京商报 浏览 5464

社交神器?赛博宠物?Vbot维他机器狗开售,价格不过万

南方都市报 浏览 179

美国政府宣布美英就药品定价达成原则性协议

华尔街见闻官方 浏览 1819

中国职业拳击手周润琪在澳乘公交遇袭 头部被刺伤昏迷

三湘都市报 浏览 307

“V领毛衣”今年秋天爆火!知识分子风、老钱风都少不了它

LinkFashion 浏览 296

秋冬别穿阔腿裤了!裙子才是粗腿女孩的救星!

Yuki女人故事 浏览 235

Here we go!罗马诺:拜仁小将查韦斯加盟科隆,附有回购条款

懂球帝 浏览 121

长期的“台积电第一大客户”,苹果如今也不得不“抢产能”了

华尔街见闻官方 浏览 135

牛弹琴:中国外交干了件大事 王毅的一句话内涵很丰富

现代快报 浏览 145

拿地即亮相!首钢·璟瑞长安择址长安街,解锁京西人居新篇

365财经plus 浏览 13612

以政府:以色列被扣押人员10月11日起获释

界面新闻 浏览 282

老兵们打赢了第一仗,但真正的战争是整个赛季

体坛周报 浏览 267

自动驾驶真的来了 两款车型分别在北京/重庆获准上路

网易汽车 浏览 168

百万人围观,「上下文图谱」火了,万亿美元新机遇?

机器之心Pro 浏览 157

50+女人的穿衣指南:亮一点,松一点,美得比年轻姑娘有味道

静儿时尚达人 浏览 415

RedPlay新阵地:小红书游戏行业峰会解码「种草用增」新思路

环球网资讯 浏览 114

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

静儿时尚达人 浏览 318

特斯拉在欧洲加速推广FSD!新增试驾体验,产品进入全新国家

车东西 浏览 114

李在明送特朗普的金冠是镀金的 纯金太贵得花150万元

极目新闻 浏览 271

女子疑被家暴打死家属还原当晚恐怖细节 小三照片被扒

古希腊掌管松饼的神 浏览 379

美国突袭委未寻求国会批准 鲁比奥辩解:并非入侵行动

环球网资讯 浏览 145
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4