关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro290人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普:战事不是挡箭牌 乌克兰该选举了

澎湃新闻 浏览 163

面相苦的蓝盈莹,真的被低估了

人间颂 浏览 353

路易斯:感到很失望,明年我不知道还会不会在这里

懂球帝 浏览 273

美媒承认乌重镇即将被攻克:俄方为此付出了很大代价

环球时报国际 浏览 277

西北大学教授刘建妮 被撤销“中国青年女科学家奖”

每日经济新闻 浏览 410

关于李湘为什么总披着外套?

甜柠聊史 浏览 289

今日热点:主创说《怪奇物语》结局很精彩;李亚鹏说真相比猜想更精彩……

伊周潮流 浏览 298

张曼玉的平价穿搭火遍全网,60岁依然是大家最爱的穿衣榜样

黎贝卡的异想世界 浏览 445

蒋欣晒剧组“减脂盒饭”演员卷这事儿

极目新闻 浏览 370

个体户雇人偷排工业废液致4死 2名主犯死刑复核未通过

封面新闻 浏览 235

今年秋天最时髦的穿法:衬衫+阔腿裤,太高级了!

LinkFashion 浏览 397

官方:罗汉琛新赛季正式加盟深圳男篮

懂球帝 浏览 411

炎热的夏天,火热的牛市,能否持续?

木禾投研 浏览 466

阿里正把自己装进赛博分身

虎嗅APP 浏览 1876

“史上最强”半年报,零跑汽车达成半年度盈利新里程碑

汽车网评 浏览 425

韩庚卢靖姗二胎孕肚曝光!7年婚姻零绯闻,他戒烟伴产细节太戳人

娱乐白名单 浏览 432

五月天力捧台独艺人惹争议!

萌神木木 浏览 297

北约下周军演 将模拟可能动用核武器场景

界面新闻 浏览 292

画面公开:辽宁舰、山东舰航母编队远赴西太平洋

环球网资讯 浏览 422

库里也来研磨下笔!库里更推:这趟中国行太让我感动了

直播吧 浏览 411

卷首语 | 拒绝和解的勇气

时尚COSMO 浏览 254
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4