关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro498人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

马斯克疑悄悄搁置＂美国党＂计划：或支持万斯2028竞选

红星新闻浏览 667

2025公益热度排名：肖战压过王一博登顶公益榜

未曾青梅浏览 399

4680电池的大饼，马斯克不想画了

远川科技评论浏览 374

精彩推荐

男子被外卖车撞成十级伤残：小哥说＂要超时送了再说＂

封面新闻浏览 664

九旬李明启谈到容嬷嬷为自己发声

蜜桔娱乐浏览 459

谷歌DeepMind让AI大脑学会了超强＂语言视觉连接＂

科技行者浏览 622

缔造仙女梦的人，去了天堂继续缝制星光✨

黎贝卡的异想世界浏览 413

9.78-11.48万元荣威M7 DMH开启预售

网易汽车浏览 568

前排双联屏+女王副驾与众08内饰发布还配调光天幕

网易汽车浏览 283

俄黑海港口设施遭袭，乌军证实实施火力打击

潇湘晨报浏览 505

一路繁花2：刘嘉玲夸王家卫，何赛飞装都不装了

娱乐圈笔娱君浏览 450

爱尔眼科，暗藏玄机！

飞鲸投研浏览 2069

NBA战报：爵士123-110篮网，马尔卡宁30+8+1

懂球帝浏览 431

秋冬发色天花板！5款显白温柔发色拿图给Tony，染完被夸到过年

Yuki女人故事浏览 399

“装了周杰伦”的机器狗？巨星传奇把6000台卖给了谁？

野马财经浏览 1446

看完《阿凡达3》，心情很复杂

独立鱼浏览 359

场均2.70分，阿隆索登顶皇马主帅前10场西甲场均拿分榜

懂球帝浏览 484

韩剧女神，被吐槽“断崖式衰老”？

寻艺浏览 379

绝色美人赛道，太适合何晴了！

温柔娱公子浏览 402

邮报：利物浦体能教练正帮维尔茨提升身体素质，从而适应激烈对抗

直播吧浏览 574

特朗普就伊朗问题表态伊朗：不会轻易相信美国

上游新闻浏览 295

许昕爆冷不敌18岁小将发文＂回家＂投诉对手违规被无视

三湘都市报浏览 620

斯塔默告诉特朗普：对北约盟国加征关税错了

新京报浏览 354

小区因千万接口费欠款致600户居民3年未供暖多方回应

大象新闻浏览 499

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
闽ICP备16027347号-4