关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者882人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

基德:当东契奇和欧文倒地扑球时 这会对球队的年轻球员产生影响

直播吧 浏览 12758

波音圣路易斯地区罢工持续近三月,谈判陷入僵局

国际金融报 浏览 839

俄方表示结束乌克兰危机“欧洲方案”不具建设性

环球网资讯 浏览 462

凯斯因病退赛,小米辣放弃泼天富贵,压力娃登场即可稳拿百万巨奖

网球之家 浏览 741

冰箱:哈登不愿做脏活累活 这样只能赢几场常规赛不可能夺冠

直播吧 浏览 14777

总裁偷代码丑闻后,Stability AI又曝高层大换血,十亿美元还能撑多久

新智元 浏览 15492

马卡:塞尔塔公布本赛季5名队长人选及顺位 阿斯帕斯仍是第一队长

直播吧 浏览 1720

官方:武汉三镇前外援华莱士加盟巴乙升班马庞特普雷塔

懂球帝 浏览 129

俄传奇双面间谍在美监狱去世 曾给美国制造大麻烦

环球网资讯 浏览 16186

超有梗!李若彤邀请易立竞采访自己与富商的故事

网易娱乐 浏览 26920

以色列捅了娄子,巴铁正式成了沙特保护伞,对中国意味着什么?

北向财经 浏览 1561

专家:美对华贸易姿态是战略性失败 不再掌握全球霸权

澎湃新闻 浏览 29625

日媒曝自卫队已开始使用“星链”服务

环球网资讯 浏览 15716

80后正厅刘俊义再履新职 出任太原市政法委书记

政知新媒体 浏览 120071

北京这一天,陈晓秒了罗一舟,短剧男主和长剧男主一眼看出差别

娱乐圈笔娱君 浏览 408

俄称在克里米亚附近击落乌导弹和无人机

环球网资讯 浏览 10900

浙商银行前三季度经营稳健,总营收489.31亿元

证券市场周刊 浏览 810

电气化时代回归汽车本质 比亚迪和本田谁才是真正的技术控?

网上车市 浏览 13110

媒体:赖清德再当汉奸"卖台" 看美媒报道一定心碎一地

环球时报新闻 浏览 31802

专家:自民党与公明党谈崩了 给高市早苗当头一记闷棍

澎湃新闻 浏览 1091

三亚游客:托车回成都排到下月 无奈选择“人走车留”

封面新闻 浏览 80337
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1