关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro912人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

这次是领队!布冯社媒:每次重回国家队训练基地,心里都暖暖的

直播吧 浏览 14247

特斯拉进入平价棋局 不足4万美元的新车又是鲶鱼?

禾颜阅车 浏览 1038

国债被"抛售"债市遭暴击 日本或在未来面临金融风暴

红星新闻 浏览 32534

越野爱好者有福了,福特烈马正式首发

天天汽车 浏览 12752

39岁唐嫣又演少女 新剧造型曝光被嘲讽

萌神木木 浏览 14656

3万亿苹果黑洞:赢者通吃,还是泡沫一场?

雪豹财经社 浏览 12501

90后女孩25岁时被清华拒绝 27岁成最具潜力女科学家

鬼谷子思维 浏览 98612

中国算力进入拐点:“用多了就有生态,用少了生态就跑了”

第一财经资讯 浏览 1557

台媒滚动播放九三阅兵 国防部回应

北京日报 浏览 1556

真宿敌!枪手旧将拉姆塞打趣布伦南-约翰逊:真希望他没去热刺

直播吧 浏览 14181

星途七年七换帅,高管动荡魔咒如何破?

电动势 浏览 1065

40岁的女人新年应该穿什么?试试这些养眼的穿搭,喜庆又高级

Yuki时尚酱 浏览 12963

尤文官方:博格巴肌肉轻微疲劳&加蒂脚踝扭伤,二人均已开始康复

直播吧 浏览 14212

天空体育:苏超流浪者与海港主帅穆斯卡特谈判已进入最后阶段

懂球帝 浏览 1008

民营企业家行贿25万一审被判11年半 二审改判1年2个月

经济观察报 浏览 73671

海外反华账号造谣中国核动力潜艇发生事故 媒体明查

澎湃新闻 浏览 86331

女子和前男友约会过夜 现男友在楼下守到半夜急到报警

汉史趣闻 浏览 88790

特朗普专机着陆区附近发现"狩猎架" FBI证实介入调查

红星新闻 浏览 6487

苹果大幅削减头显销售目标至15万台 连自己都不看好?

手机中国 浏览 16250

让城市有“面子”更有“里子” 建设韧性城市行动方案发布

央视财经 浏览 954

中国男篮世预赛五看点:乔帅执教首秀 周琦亮相新人谁能一鸣惊人

厝边人侃体育 浏览 19300
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1