关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19119人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大湾区晚会太真实,多位明星假唱翻车

萌神木木 浏览 15425

E句话| 他们都离婚了?

仙女事件簿 浏览 1005

女孩引产遭拒生女婴被医生"送人" 抱养方称捡弃婴露馅

澎湃新闻 浏览 7412

刘嘉玲怒怼肉娱小鲜肉?

港剧叔 浏览 778

冬季气质女人穿衣优雅的秘密,都藏在“大衣”里,这么搭太美

静儿时尚达人 浏览 13410

专家:高市早苗跟台湾关系较密切 会让大陆比较担忧

澎湃新闻 浏览 4086

特朗普:我也不想 但我们确实从乌克兰战争中赚到钱了

澎湃新闻 浏览 19310

T恤搭半身裙才是夏季标配 轻松掌握时尚密码

虎哥说衣不二 浏览 18969

起亚EV5 720长续航版上市!共三款车型,售价18.48万起

汽车网评 浏览 12600

美妆胶卷 | 从未停止的迭代革新,愈久愈强大的健康功效。

伊周潮流 浏览 11281

39岁1150万!船记:快船将和塔克分手 要么交易&要么用延伸条款裁

直播吧 浏览 10580

以媒:总理内塔尼亚胡计划下月访华 其对美国失去耐心

环球网资讯 浏览 86975

连夜变现289万元!“每天见证历史!”网友懵了:该买还是卖?

每日经济新闻 浏览 12340

中老年男人:为什么劝你少戴金项链、金手镯?看完3组对比图就懂

潮人志Fashion 浏览 11833

李在明表态:韩国站美国一边 但要妥善处理对华关系

澎湃新闻 浏览 11836

王大陆官宣新恋情,承认与女主播交往

扒虾侃娱 浏览 12853

14岁休学少女进拓展营后死亡 曾哭喊"妈妈我不想死"

新京报 浏览 34218

女人会不会打扮 通过鞋子就能看出来

潮人方法论 浏览 16236

排除乌欧参与引发解读 普京与美特使谈了5小时

环球网资讯 浏览 213

台军欲拿泡面吸引解放军投诚,网友差点没有笑出声

趣看热点 浏览 25774

唐山5旬刘主任出轨年轻少妇 两人亲吻被女方女儿撞见

社会奇闻君 浏览 94547
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1