可可资讯

·“数据质量的差别是主要瓶颈之一。相较于英文数据，中文数据的开源程度较低，导致中文数据集的规模相对较小。此外，英文作为科研主流语言，在学术界和工业界中得到广泛应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间，复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS，引发各界人士参与内测的热情。一个显著的反馈是，MOSS的英文回答水平比中文高，这在公众与ChatGPT的互动中也有类似体现。为何如此？
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技（www.thepaper.cn）表示，“数据质量的差别是主要瓶颈之一。相较于英文数据，中文数据的开源程度较低，导致中文数据集的规模相对较小。此外，英文作为科研主流语言，在学术界和工业界中得到广泛应用，积累了大量高质量的语料数据，这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚，“MOSS的英文回答水平比中文高，因为它的模型基座学习了3000多亿个英文单词，中文词语只学了约300亿个。”
王昊认为，对于中文来说，高质量无监督语料和指令数据尤其严重不足。因此，中文自然语言处理领域需要更多的投入和努力来积累高质量的数据，并将其开源，以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》，他在接受澎湃科技（www.thepaper.cn）采访时表示，“从数据和应用的角度来说，中国的科技企业目前来看有比较大的优势。从数据角度来说，国内其实是产出了大量数据的，但数据的准确性和可靠性如果能够提上去，对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的，在新闻、广告、教育等等领域，而应用

为什么复旦MOSS大模型的中文水平不如英文？

特斯拉又双叒...

特朗普和马斯...

市盈率10倍...

肖战杨紫绯闻...

外交部回应＂...

中俄南非今天...

普里戈任在俄千亿商业帝国已崩溃除了＂瓦格纳＂

男子被忽悠贷款买车跑物流公司跑了车被扣贷款甩不掉

降幅缩窄，绿城亮眼！上半年TOP10房企销售涨跌榜

LVMH掌门人到北京了

港媒:俄正寻求与中国合作将喀拉海延伸到白令海峡

讲真！如果于正有央视的一半审美，陈妍希当年就不会被骂成小笼包

问界撑得起华为的野心吗

复旦大学法学院学生在毕业典礼上挥拳打老师院方通报

爆大冷！同曦掀翻准4强劲旅，4连胜剑指季后赛，末节36分逆风翻盘

赫尔松大坝刚炸毁普京公布在白俄部署核武器具体时间

山东舰正式入列4周年回看壮美航迹

威少绝杀篮网，奇才最后12秒完成惊天逆转

苹果头显遇“麻烦” 华为四年前已注册Vision Pro商标

专家:美企图打造＂美日韩+＂若实现对中国非常不利

尼日尔政变军人指责法国侵犯其领空，法方否认

杨紫琼带小金人为父扫墓手持香烛鞠躬显虔诚

一年后态度转变曾＂拒见＂中国大使的莫里森与大使会面

直击“长空之王”实弹射击现场

多省公安厅长密集调整 5名“70后”履新

长安汽车称＂扣供应商10%货款＂不实＂商务函＂为何引风波

卢卡库或助曼联签奥纳纳！德赫亚有望获沙特加薪，可与C罗再合作

春天“英伦复古风”穿搭，看看这16套LOOK，简约、时髦、高级

ESPN大规模裁员范甘迪等多位资深媒体人毕业美网友声讨帕金斯

DeepSeek把南边恶邻干懵圈！涉及9万亿巨资