关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻10478人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

LVMH掌门人到北京了

投资界 浏览 7188

港媒:俄正寻求与中国合作 将喀拉海延伸到白令海峡

观察者网 浏览 16189

讲真!如果于正有央视的一半审美,陈妍希当年就不会被骂成小笼包

温柔娱公子 浏览 3286

问界撑得起华为的野心吗

豹变 浏览 6979

复旦大学法学院学生在毕业典礼上挥拳打老师 院方通报

复旦大学法学院 浏览 15841

爆大冷!同曦掀翻准4强劲旅,4连胜剑指季后赛,末节36分逆风翻盘

环太平洋老正太 浏览 3365

赫尔松大坝刚炸毁 普京公布在白俄部署核武器具体时间

中国新闻周刊 浏览 43799

山东舰正式入列4周年 回看壮美航迹

环球网资讯 浏览 4271

威少绝杀篮网,奇才最后12秒完成惊天逆转

趣看热点 浏览 17462

苹果头显遇“麻烦” 华为四年前已注册Vision Pro商标

金融界 浏览 7564

专家:美企图打造"美日韩+" 若实现对中国非常不利

直新闻 浏览 5916

尼日尔政变军人指责法国侵犯其领空,法方否认

界面新闻 浏览 5863

杨紫琼带小金人为父扫墓 手持香烛鞠躬显虔诚

网易娱乐 浏览 11181

一年后态度转变 曾"拒见"中国大使的莫里森与大使会面

环球时报新闻 浏览 43269

直击“长空之王”实弹射击现场

环球网资讯 浏览 7648

多省公安厅长密集调整 5名“70后”履新

中国新闻周刊 浏览 45015

长安汽车称"扣供应商10%货款"不实 "商务函"为何引风波

澎湃新闻 浏览 8741

卢卡库或助曼联签奥纳纳!德赫亚有望获沙特加薪,可与C罗再合作

罗米的曼联博客 浏览 6849

春天“英伦复古风”穿搭,看看这16套LOOK,简约、时髦、高级

静儿时尚达人 浏览 2525

ESPN大规模裁员 范甘迪等多位资深媒体人毕业 美网友声讨帕金斯

直播吧 浏览 7031

DeepSeek把南边恶邻干懵圈!涉及9万亿巨资

浏览 110
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4