关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101793人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐周六热推:电视剧《暗河传》;电视剧《天地剑心》......

伊周潮流 浏览 887

美国机密文件泄密嫌疑人被捕 仍掌握300张文件照片

环球网资讯 浏览 19110

自然脸和"打针脸"区别有多大?3组高颜值明星对比

小故事娱乐 浏览 19740

上海这一夜,张子枫腰身撩人,惠英红华贵霸气

不八卦会死星人 浏览 16400

百亿基金经理再出手,固收产品添新作!

中国基金报 浏览 14687

上台后第一次 特朗普用7个字形容中国对华态度变了

现代小青青慕慕 浏览 5349

罗马诺:21岁米堡左边锋罗杰斯将加盟维拉,曼城有25%二转分成

直播吧 浏览 12473

张朝阳:AI让人人成为“知道分子”,但我们仍需思考丨2025世界互联网大会

红星资本局 浏览 684

俄罗斯边境城镇一天内遭受超过179次攻击

看看新闻Knews 浏览 16596

清洗6人+重启2归化!国足新帅变阵,承诺进18强赛,防韩国踢假球

侃球熊弟 浏览 12342

这样的微醺纯欲热恋,就爱看他俩谈!

吐槽电影院 浏览 12778

火遍全网的这件外套太好穿,我总结了几个实用搭配公式

黎贝卡的异想世界 浏览 684

韩国或成全球首个消失国家,首都人口数量已跌破千万

趣看热点 浏览 376260

“ChatGPT之父”推出世界币App,或成AI时代的“身份证”

澎湃新闻 浏览 18209

瞄准2028年重要选举 郑丽文最新表态

新京报政事儿 浏览 5900

乌记者询问中方是否计划向乌提供援助 外交部回应

上观新闻 浏览 16496

深圳一业主刚买完房楼盘就降价 不到一个星期差价40万

澎湃新闻 浏览 74879

美国的联邦制,很落后!

浏览 23225

吕布杀了两名小将为何称为三国第一猛将?以辕门射戟化解刘备与纪灵的争斗

趣看热点 浏览 26447

中国刚买完美国玉米特朗普就立马变脸 摆了中方一道

策略述 浏览 5641

巴沙尔倒台,土耳其成最大赢家,最大输家是谁

浏览 23037
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1