关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro390人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2026款大众宝来上市 售价11.29-14.39万元

车质网 浏览 373

史上首次!微软官宣Windows 26H1版本:已推出测试版

快科技 浏览 337

美国纽约市长选举进入"最后冲刺":印度裔候选人领跑

红星新闻 浏览 304

46岁邓超暴瘦引讨论,人前光鲜背后令人担忧

小梊搞笑解说 浏览 230

AMD 确认 Radeon RX 9060 显卡仅限 OEM 渠道

IT之家 浏览 470

某厂子系8E5迭代机曝光,预计为小米REDMI K100系列

IT之家 浏览 21

钉钉推出全新AI原生工作平台“悟空”

IT之家 浏览 146

鸥翼门加持 凯迪拉克Elevated Velocity发布

车质网 浏览 586

靠脱口秀昙花一现的李诞,如今越混越落魄了

沧海一书客 浏览 261

芒果这部剧,让人读懂“太平”二字的千钧重

娱乐圈笔娱君 浏览 220

即时零售血洗传统零售业!良品铺子首当其冲,下一个是谁?

诗与星空 浏览 13190

牛弹琴:印度耍流氓太不地道 难怪巴基斯坦要发飙

北京日报客户端 浏览 267

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

伊周潮流 浏览 296

杜兰特与前队友布鲁斯-布朗互喷,后者赛后:杜兰特越界了

懂球帝 浏览 273

碰瓷营销还是真有实力 创维汽车的“生存者游戏”

网易汽车 浏览 156

出生人口跌破800万,养老金怎么办?

智本社 浏览 1072

突击队“对冲”无人机 俄乌激战红军城

上观新闻 浏览 515

VOGUE大合照太势利:影后只能站角落?

娱乐圈笔娱君 浏览 373

博弈并购,豹变未来:时代传媒集团2025上市公司高质量发展论坛暨第四届董秘沙龙将在苏州举办

时代周报 浏览 8717

记者:佛罗伦萨球员不满基恩500万高薪,后者态度也存在问题

懂球帝 浏览 288

十五五规划建议共15个部分61条 分三大板块

界面新闻 浏览 344
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4