关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro79人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

两名女车主起纠纷在停车场打架 男子"误入镜头"遭网暴

央广网 浏览 23308

网传重庆一老人去世11年后又"出现" 当地警方:正调查

新京报 浏览 49847

杨天真要做切胃手术自称手术的目的是为了治病,究竟怎么回事?

趣看热点 浏览 18050

大风沙尘齐袭北方,一觉醒来犹如来到了火星

趣看热点 浏览 681308

阿尔瓦拉多25+3遭重伤!背部着地无法起身 戴颈托被担架抬出球馆

颜小白的篮球梦 浏览 187

台拟在"红色滩头"搞演习 猜解放军会在4个地点登陆

环球网资讯 浏览 57226

2024最流行的5种发型,太适合过年了!

LinkFashion 浏览 4150

埃及出土27具千年古棺,保存完好从未被打开过

趣看热点 浏览 17637

武契奇:世界正处于第三次世界大战的边缘

环球网资讯 浏览 10805

周海媚去世留下4亿资产 3兄妹拒绝继承

影像温度 浏览 4778

第三次世界大战爆发了吗?我们该怎么办?

新民周刊 浏览 11106

预期正在起变化?杭州首批土拍收金182亿,六成地块“触顶”,民营房企揽地过半

中国基金报 浏览 12038

中联部部长:中国不会另起炉灶 再搞一套所谓新秩序

环球网资讯 浏览 27831

广汽集团曾庆洪:中国汽车市场将保持微增长,想“找死”的企业就早点降价

21世纪经济报道 浏览 8453

数智惠闽企,展车进福州|华为坤灵中国行2025·福建站成功举办,推动闽企智能化发展新征程

环球网资讯 浏览 77

美联邦航空管理局悄悄说:波音飞机没问题

观察者网 浏览 319

这场会议将影响全球市场走向

国际金融报 浏览 2660

美团杀入开源大模型混战:LongCat登场,推理速度直破100 Token/s

AI寒武纪 浏览 173

日企将用高空气球把乘客送至25公里高空开启太空游 票价12万元

网易科技报道 浏览 11261

蔚来2023年交付超16万辆|汽势之声

汽势传媒 浏览 4404

24家公司签署公开信 指责苹果、谷歌等科技巨头未能遵守新的反垄断法

网易科技报道 浏览 4200
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4