爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

猜你喜欢拿“...

腾讯：上半年...

月薪涨150...

手握200亿...

50岁别总穿...

茅台失去的十...

男生最经不住女生这样撩！

23年前冰柜藏尸案告破，一个塑料袋成为破案关键

国产芯片龙头，市占率第一，华为、中兴通讯供应商，机构扎堆！

富士康汽车代工失利，被申请破产保护的美国造车新势力起诉

成熟企业做新品牌往往很难成功，为什么？

山西10岁男童遇害继父曾冲镜头痛哭喊话＂要找到娃＂

记者在催收公司干8天:要回来3万提成2千银行是金主

以方袭击后美副总统表态：加沙停火协议仍在维持

死在绞肉机下的流浪猫，流向了你的餐桌

中印边境冲突现场十个细节到底是怎么回事？

外媒称全球可用核武库增长炒作中国核弹数量大增

太阳5人15+力克湖人升至西部第2 勒布朗38+5+6

牛弹琴：中国1天内新部署1艘航母6艘军舰法媒＂醋＂了

外媒：俄国防部称击溃一支乌克兰特种部队

菲大使刚威胁完中国，山东舰直接堵菲家门

多地房贷利率跟随LPR下调，处于近年低点

青海13人被淤泥掩埋失联家属昼夜未合眼在现场守候

衣品好的中年女人，冬季衣柜中不会缺少这3件单品！实用好搭

ServiceNow团队破解检索系统评分难题：让AI搜索更懂你的真实需求

口袋 AI 设备 Rabbit R1 更新，引入全新堆栈式卡片界面

16岁女孩为要5万元将母亲绑在家中断水断食致其饿死

达成停火18天后战火再起以总理下令袭击加沙

中国女排很忙！上午力量下午基础蔡斌：世联赛是为亚运锤炼阵容

“这条裙子”才是今年的顶流，怎么搭都时髦