爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

坐火车入境波...

郑爽张恒借贷...

“双11”本...

美国新年首个...

民营企业家行...

以军证实有8...

静默复古风，低调显贵的穿搭密码！得物2025秋冬趋势发布！

张柏芝被指为4000万元自愿当男子的狗其工作室回应了

今年冬天一定要拥有的6件衣服，谁穿谁好看！

基德：当东契奇和欧文倒地扑球时这会对球队的年轻球员产生影响

波音圣路易斯地区罢工持续近三月，谈判陷入僵局

俄方表示结束乌克兰危机“欧洲方案”不具建设性

凯斯因病退赛，小米辣放弃泼天富贵，压力娃登场即可稳拿百万巨奖

冰箱：哈登不愿做脏活累活这样只能赢几场常规赛不可能夺冠

总裁偷代码丑闻后，Stability AI又曝高层大换血，十亿美元还能撑多久

马卡：塞尔塔公布本赛季5名队长人选及顺位阿斯帕斯仍是第一队长

官方：武汉三镇前外援华莱士加盟巴乙升班马庞特普雷塔

俄传奇双面间谍在美监狱去世曾给美国制造大麻烦

超有梗！李若彤邀请易立竞采访自己与富商的故事

以色列捅了娄子，巴铁正式成了沙特保护伞，对中国意味着什么？

专家:美对华贸易姿态是战略性失败不再掌握全球霸权

日媒曝自卫队已开始使用“星链”服务

80后正厅刘俊义再履新职出任太原市政法委书记

北京这一天，陈晓秒了罗一舟，短剧男主和长剧男主一眼看出差别

俄称在克里米亚附近击落乌导弹和无人机

浙商银行前三季度经营稳健，总营收489.31亿元

电气化时代回归汽车本质比亚迪和本田谁才是真正的技术控？

媒体：赖清德再当汉奸＂卖台＂看美媒报道一定心碎一地

专家：自民党与公明党谈崩了给高市早苗当头一记闷棍

三亚游客：托车回成都排到下月无奈选择“人走车留”