关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro1118人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

42岁女子和73岁老汉发生关系后非要同居老汉：赶不走

花点时间浏览 73950

六大行集体下调存款利率 100万存5年利息少7500元

时代财经浏览 16754

菲戈：我支持国米晋级欧冠决赛，劳塔罗能留下属于自己的印记

直播吧浏览 18829

精彩推荐

神秘隐身机抵近琉球，日本没见过，F15J升空

真正优雅的50、60岁女人，不留黑长直，更不扮嫩，这样太美了

静儿时尚达人浏览 12939

约翰·古迪纳去世了，他发明的锂电池如何改变了世界？

雷科技浏览 15565

一个长城战略下，哈弗重塑命名体系

帮宁工作室浏览 836

澎湃OS优化进展公布，小米15手机相机体验等问题已修复

IT之家浏览 2

球星赛混双4强产生，张本智和早田希娜爆冷出局，国乒2组合晋级！

乒谈浏览 12598

2025全球十大工程成就发布，DeepSeek、人形机器人等入选

澎湃新闻浏览 1036

泽连斯基警告“第三次世界大战”风险

环球网资讯浏览 12866

83岁的何享健再度冲击IPO，美的系第十子即将诞生？

BT财经浏览 1747

拉波尔塔：如无意外月底回归诺坎普；弗里克在巴萨很开心

懂球帝浏览 760

媒体：西方又给解放军戴＂不专业＂帽子还有人谩骂

新民周刊浏览 16387

俄总统新闻秘书：北约在与俄罗斯作战

新京报浏览 1652

此墓到底有多牛?几百年无人敢盗,曾国藩跪拜,洪秀全痛哭不起

趣看热点浏览 25736

为什么你越保养，皮肤反而越没光？

时尚COSMO 浏览 941

乌在黑海海域击沉一艘俄“影子舰队”油轮

上观新闻浏览 115

9月第二周周销量：方程豹/乐道进入新势力前十，岚图超越极氪或很快出现

驾仕派浏览 1670

金银同创历史新高，国内金饰克价突破1180元，现在还是追高时机吗？

澎湃新闻浏览 1009

马克龙：成为美国盟友并不意味着是附庸

环球网资讯浏览 18950

迪丽热巴：从流量到实力，她还能走多远？

伊周潮流浏览 278

贾静雯晒一家四口出游照波妞身高优越直追咘咘

侦探娱乐浏览 15018

尤文伤情更新：小基耶萨麦肯尼已能合练，拉比奥特得等到周四

直播吧浏览 12577

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1