关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro388人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广东为胡明轩庆生!杜锋高待遇,多人摁头往蛋糕砸,想报复却未果

篮球资讯达人 浏览 161

智驾下一个关键挑战,是不被别人摘“桃子”?

虎嗅APP 浏览 5297

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

环球时报国际 浏览 248

二次封后的宋佳凭什么狂妄?

无处不风景love 浏览 309

错过靳东,嫁给父亲看中的女婿,如今她怎么样了

楠楠自语 浏览 389

仅买10天的哈弗大狗高速上突发变速箱故障 车主后怕

大风新闻 浏览 161

毛茸茸的冬天,毛孩子们都在想什么?

时尚COSMO 浏览 300

外媒:美对华威胁加税100% 极限施压报复北京近期举动

环球网资讯 浏览 368

产检时一切正常小孩出生后却畸形 母亲时隔一年多投诉

潇湘晨报 浏览 266

科沃斯“最贵”的高管,又要套现3000万?

蓝鲸新闻 浏览 696

浙江一男子泳池跳水时颈椎严重受伤不治身亡 家属发声

新民晚报 浏览 319

敷尔佳:定价过高、盟友倒戈,重营销模式难掩发展困境|ESG案例

网易财经ESG 浏览 1287

温碧霞全家看江景

心静物娱 浏览 500

陈赫在家做丹东蟹,张子萱围着老公转

观察鉴娱 浏览 830

丰田新款Land Cruiser FJ最新消息曝光

乐选爱车 浏览 365

谁逆袭谁掉队?43家券商业绩全景复盘

国际金融报 浏览 20620

推广 || 断舍离N次也不会断了它,买过最值的冬日单品之一

黎贝卡的异想世界 浏览 333

虞书欣近况曝光!充钱偷看事业占卜被发现,火速摘灯牌隐身

萌神木木 浏览 417

换装高功率电机,蔚来 firefly 萤火虫新车申报

IT之家 浏览 328

耀才证券澄清传言,蚂蚁斥资28亿港元补“短板”!

独角金融 浏览 530

跨年晚会:王俊凯水中热舞 王嘉尔加入时代少年团

扒虾侃娱 浏览 278
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4