关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1118人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

神秘隐身机抵近琉球,日本没见过,F15J升空

浏览 11327

真正优雅的50、60岁女人,不留黑长直,更不扮嫩,这样太美了

静儿时尚达人 浏览 12939

约翰·古迪纳去世了,他发明的锂电池如何改变了世界?

雷科技 浏览 15565

一个长城战略下,哈弗重塑命名体系

帮宁工作室 浏览 836

澎湃OS优化进展公布,小米15手机相机体验等问题已修复

IT之家 浏览 2

球星赛混双4强产生,张本智和早田希娜爆冷出局,国乒2组合晋级!

乒谈 浏览 12598

2025全球十大工程成就发布,DeepSeek、人形机器人等入选

澎湃新闻 浏览 1036

泽连斯基警告“第三次世界大战”风险

环球网资讯 浏览 12866

83岁的何享健再度冲击IPO,美的系第十子即将诞生?

BT财经 浏览 1747

拉波尔塔:如无意外月底回归诺坎普;弗里克在巴萨很开心

懂球帝 浏览 760

媒体:西方又给解放军戴"不专业"帽子 还有人谩骂

新民周刊 浏览 16387

俄总统新闻秘书:北约在与俄罗斯作战

新京报 浏览 1652

此墓到底有多牛?几百年无人敢盗,曾国藩跪拜,洪秀全痛哭不起

趣看热点 浏览 25736

为什么你越保养,皮肤反而越没光?

时尚COSMO 浏览 941

乌在黑海海域击沉一艘俄“影子舰队”油轮

上观新闻 浏览 115

9月第二周周销量:方程豹/乐道进入新势力前十,岚图超越极氪或很快出现

驾仕派 浏览 1670

金银同创历史新高,国内金饰克价突破1180元,现在还是追高时机吗?

澎湃新闻 浏览 1009

马克龙:成为美国盟友并不意味着是附庸

环球网资讯 浏览 18950

迪丽热巴:从流量到实力,她还能走多远?

伊周潮流 浏览 278

贾静雯晒一家四口出游照 波妞身高优越直追咘咘

侦探娱乐 浏览 15018

尤文伤情更新:小基耶萨麦肯尼已能合练,拉比奥特得等到周四

直播吧 浏览 12577
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1