关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro291人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

达利欧警告:美伊在霍尔木兹海峡的"决战"将改变世界

财联社 浏览 91

泡泡玛特回应79有点贵直播事故;山姆回应支付跳色情网站丨邦早报

创业邦 浏览 248

不分油电,梅赛德斯-奔驰将统一旗下所有车型设计语言

IT之家 浏览 613

科学家发现:AI用标点符号作为记忆密码

科技行者 浏览 391

外媒:法国称“已准备好”向乌克兰派兵

参考消息 浏览 223

AI抢产能、车厂抢内存,这场博弈中国车企如何破局?

百姓评车 浏览 140

上赛季至今五大联赛仅6人直接参与40球+:凯恩第1,青木在列

懂球帝 浏览 191

曼联双核复出战切尔西!阿莫林称教皇来也不放弃343,拒谈加纳乔

罗米的曼联博客 浏览 343

为了挡住豆包,腾讯撒出10亿红包

中国企业家杂志 浏览 3808

CBA战报:吉林82-77宁波取CBA3连胜,姜伟泽21+2+5

懂球帝 浏览 175

牛弹琴:特朗普"自封为国王" 很多美国人气炸了

映象网 浏览 668

永辉超市减持红旗连锁,套现上亿元

红星资本局 浏览 720

特朗普下令重启核试验 美官员称暂不含核爆炸

中国国情 浏览 291

田中碧:日本球员水平在提升,想知道与巴西的差距就得比一场

懂球帝 浏览 297

楼梯上!中场休息时的离奇受伤

绿茵情报局 浏览 162

女子应聘疑遭老板性暗示 涉事企业法人:出于工作需要

极目新闻 浏览 264

伊姐周日热推:电视剧《看得见风景的窗》;电视剧《春日狂热》......

伊周潮流 浏览 146

Novodisq发布11.5PB容量的2U刀片服务器,单条SSD容量144TB

IT之家 浏览 389

张朝阳缅怀杨振宁:他是大神 在物理学家中排第一

极目新闻 浏览 327

阿奇姆彭遭成都球迷种族歧视,队长王上源发文声援

懂球帝 浏览 267

妈耶!这一冬天都笑疯了!真受不了这喷饭综艺有人不知道

娱乐圈笔娱君 浏览 169
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4