关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者715人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美俄可能达成默契,中欧将如何相处?

浏览 23005

狄莺要和孙鹏离婚,发文受够孙家人,称大姑姐全家薄情寡义

素素娱乐 浏览 10801

马斯克承认其他车企不想获得特斯拉FSD授权:他们简直疯了

IT之家 浏览 458

曾志伟庆70岁大寿,获众多年轻女星献吻满脸享受

盖饭娱乐官方号 浏览 19503

罗马尼亚要求俄罗斯使馆51名工作人员30日内离境

界面新闻 浏览 16317

布林肯:中美是长期竞争关系 没有明确的终点线

环球网资讯 浏览 15633

全新比亚迪SHARK6亮相 1000km综合续航+L2级智驾

华庭讲美食 浏览 707

三亚游客:托车回成都排到下月 无奈选择“人走车留”

封面新闻 浏览 80337

李嘉诚坐私人飞机现身杭州,派头十足获众人接机

娱乐团长 浏览 16474

官宣:vivo成为杭州亚运会官方手机

网易科技报道 浏览 16523

更舒适更智能 问界新M7 Ultra将今日上市

网易汽车 浏览 11281

马斯克扎克伯格“笼斗”升级“角斗”?意大利文化部辟谣

上游新闻 浏览 15356

中印新一轮谈判谈了哪些?专家解读具体说了什么?到底是怎么回事?

趣看热点 浏览 123250

钟丽缇3个女儿太会长,大女儿性感,二女儿高级,小女儿最像妈

不八卦会死星人 浏览 12686

蔡崇信第一把火!菜鸟推出自营快递,对标顺丰京东

澎湃新闻 浏览 15403

80岁贝利接种中国新冠疫苗 呼吁人们遵守防疫规则

网易体育 浏览 26838

金融监管总局:坚决落实强监管严监管要求,全面强化“五大监管”

国家金融监督管理总局 浏览 11988

奇瑞瑞虎9家族全面上市 抢鲜价12.79万起

网易汽车 浏览 1549

ChatGPT“超级大牛股”回应了!

中国基金报 浏览 19510

犹太裔富豪索罗斯被指向亲哈马斯组织提供巨额资金

红星新闻 浏览 80771

2019年资金荒隐现?全球货币市场流动性趋紧信号显现

华尔街见闻官方 浏览 801
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1