关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12555人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

奥特曼:AGI即将出现 未来最重要的资源是算力和能源

人工智能学家 浏览 12687

“毛衣+豆腐裤”绝美!冬天就该这么穿!

Yuki女人故事 浏览 779

谷歌更新计划泄露:Bard将于2月1日获得Gemini Pro更新

IT之家 浏览 12207

山东“入室抢婴案”一审宣判 4名被告人最高获死缓

环球网资讯 浏览 11492

造车新势力6月份交付量出炉!特斯拉又降价了

Wind万得 浏览 15916

高市早苗自嘲:有人说我是当不上首相的可怜女人

澎湃新闻 浏览 4535

近2万亿债务推进 出险房企提速化债

北京商报 浏览 649

向太儿子向佑近照流出 威胁父母“不给钱我就去借”

鲁中晨报 浏览 4526

复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐

新智元 浏览 16508

中国金花夺冠第7人!王欣瑜比肩李娜郑洁,法网进账335万巨奖

ALL体育 浏览 16530

长相普通的男人,是怎么靠穿搭翻盘的?

男士穿衣搭配杂志 浏览 15022

男子拉欧阳娜娜头发被警方带走疑似纠缠猥亵欧阳娜娜

趣看热点 浏览 26719

命运多舛的英伦跑车:解读Marcos Mantis历史

老爷车 浏览 243

搭载增程动力 大众ID.ERA量产版2026年上市

车质网 浏览 415

还在磨合纽卡夏窗花近2.8亿欧,英超开局仅1胜3平1负排第13

直播吧 浏览 1674

极速养成“四力” 我在长春航展“追”飞机丨去现场做原创

封面新闻 浏览 738

李小龙妻子琳达晚年透露:丈夫其实很怕一种对手

南书房 浏览 611

券商密集实施中期分红 近90亿元红利在路上

证券时报 浏览 15

捷克总统请求中国提供新冠病毒疫苗,白眼狼终于走投无路了?

趣看热点 浏览 346315

牛莉与16岁女儿穿一身名牌在日本挤地铁 女儿身型猛涨

古希腊掌管月桂的神 浏览 63351

被大空头狙击的明星AI股Palantir,华尔街怎么看

第一财经资讯 浏览 691
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1