关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12554人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马拉多纳签名被伪造,其私人医生或企图隐瞒真相

趣看热点 浏览 25798

美国阿雷西博望远镜彻底坍塌,世界只剩中国FAST一只天眼

趣看热点 浏览 25602

宋慧乔与朋友相聚:抱爱犬笑容温柔,嘟嘴玩自拍

笑猫说说 浏览 15098

辛纳2-0德米纳尔,12连胜对手晋级ATP500维也纳站决赛

懂球帝 浏览 857

有钱人变老了:“新中年”消费崛起前夜

巨潮WAVE 浏览 19517

赚了钱,反而有人说小鹏不是“小鹏”了?

速度计 浏览 233

快船出乎意料的丢掉了两个主场,系列赛直接被独行侠打成了大比分2-0!

趣看热点 浏览 25471

“最贵ST股”*ST左江涉嫌重大财务造假,停牌前连续两日20CM涨停

界面新闻 浏览 12643

就任后的首次国事访问 马尔代夫总统选择了中国

上观新闻 浏览 73750

"日本极品软饭男"有4个老婆2个女友 几个老婆轮流陪睡

万小刀 浏览 77616

ESPN:雷纳决心冬窗离开多特,已被推荐给多队&西甲对他最感兴趣

直播吧 浏览 12634

巴菲特TOP 10仓位公布!股神最新投资动向:钟情苹果,大抛台积电……

金融界 浏览 19107

让大模型“瘦身”90%!清华&哈工大提出极限压缩方案

量子位 浏览 12470

多地又掀购车补贴潮,汽车新一轮价格战会不会卷土重来?

第一财经资讯 浏览 15956

6名董事辞职,*ST紫晶触及重大违法强退,股民可索赔

雷达财经 浏览 18393

58同城信任危机何时休?

雷达财经 浏览 14467

菜可以预制,信任不可以预支

时尚COSMO 浏览 2122

向佐郭碧婷逛街被偶遇,1岁儿子在母亲怀里熟睡

扒虾侃娱 浏览 16361

中国“智”造闪耀国际舞台,“维度I型”无人机成功出海

红星新闻 浏览 1095

网易2023 Q2财报:净收入240亿元,AI技术助自研游戏爆款频出

网易科技报道 浏览 14332

小米品牌安全官微更名,“小米法务部”正式上线

IT之家 浏览 12278
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1