爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

手感不佳！班...

71岁朱琳的...

鲁媒谈准入：...

涉债权160...

年末商战打响...

辛芷蕾飞升独...

俄国防部:俄军打击乌一处临时基地击杀两名乌将军

新款享界S9纯电版曝光尾部细节调整

美女克拉拉官宣离婚，6年豪门婚姻告终

奥特曼：AGI即将出现未来最重要的资源是算力和能源

“毛衣+豆腐裤”绝美！冬天就该这么穿！

谷歌更新计划泄露：Bard将于2月1日获得Gemini Pro更新

山东“入室抢婴案”一审宣判 4名被告人最高获死缓

造车新势力6月份交付量出炉！特斯拉又降价了

高市早苗自嘲：有人说我是当不上首相的可怜女人

近2万亿债务推进出险房企提速化债

向太儿子向佑近照流出威胁父母“不给钱我就去借”

复旦发布「新闻推荐生态系统模拟器」SimuLine：单机支持万名读者、千名创作者、100+轮次推荐

中国金花夺冠第7人！王欣瑜比肩李娜郑洁，法网进账335万巨奖

长相普通的男人，是怎么靠穿搭翻盘的？

男子拉欧阳娜娜头发被警方带走疑似纠缠猥亵欧阳娜娜

命运多舛的英伦跑车：解读Marcos Mantis历史

搭载增程动力大众ID.ERA量产版2026年上市

还在磨合纽卡夏窗花近2.8亿欧，英超开局仅1胜3平1负排第13

极速养成“四力” 我在长春航展“追”飞机丨去现场做原创

李小龙妻子琳达晚年透露：丈夫其实很怕一种对手

券商密集实施中期分红近90亿元红利在路上

捷克总统请求中国提供新冠病毒疫苗，白眼狼终于走投无路了？

牛莉与16岁女儿穿一身名牌在日本挤地铁女儿身型猛涨

被大空头狙击的明星AI股Palantir，华尔街怎么看