爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

2025 全...

中印两军日前...

乔治亚大学团...

亚马逊美股盘...

＂四大天王＂...

富士康与英伟...

氛围感帅哥，都梳起了小辫儿？

OpenAI宫斗大结局！奥特曼「无罪」重返董事会，Ilya不知去向

得益于松下特斯拉最快今年就能推出更便宜的汽车

伊姐周六热推：电视剧《暗河传》；电视剧《天地剑心》......

美国机密文件泄密嫌疑人被捕仍掌握300张文件照片

自然脸和＂打针脸＂区别有多大？3组高颜值明星对比

上海这一夜，张子枫腰身撩人，惠英红华贵霸气

百亿基金经理再出手，固收产品添新作！

上台后第一次特朗普用7个字形容中国对华态度变了

罗马诺：21岁米堡左边锋罗杰斯将加盟维拉，曼城有25%二转分成

张朝阳：AI让人人成为“知道分子”，但我们仍需思考丨2025世界互联网大会

俄罗斯边境城镇一天内遭受超过179次攻击

清洗6人+重启2归化！国足新帅变阵，承诺进18强赛，防韩国踢假球

这样的微醺纯欲热恋，就爱看他俩谈！

火遍全网的这件外套太好穿，我总结了几个实用搭配公式

韩国或成全球首个消失国家，首都人口数量已跌破千万

“ChatGPT之父”推出世界币App，或成AI时代的“身份证”

瞄准2028年重要选举郑丽文最新表态

乌记者询问中方是否计划向乌提供援助外交部回应

深圳一业主刚买完房楼盘就降价不到一个星期差价40万

美国的联邦制，很落后！

吕布杀了两名小将为何称为三国第一猛将？以辕门射戟化解刘备与纪灵的争斗

中国刚买完美国玉米特朗普就立马变脸摆了中方一道

巴沙尔倒台，土耳其成最大赢家，最大输家是谁