关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻10640人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以4位博主为例子 把日常普通的穿搭升级!

春菇凉时尚穿搭记 浏览 10398

胖东来员工与顾客争执获补偿 公司发布8页调查报告

金羊网 浏览 43093

汽车街冲刺港股:年营收4.7亿同比降30% 腾讯与京东是股东

雷递 浏览 8434

鞠躬救不了大发汽车

汽车公社 浏览 3851

小品类也能撬到大生意,谁成为商家的“赚钱搭子”?

陆玖商业评论 浏览 1742

胡塞够狠!一轮导弹狂袭,拔掉美军安插钉子

浏览 2126

海关总署:个别国家对跨境电商人为设限,并不能改变跨境电商本身的优势

澎湃新闻 浏览 101

向君:申花非常稳定成熟,深足能踢出这样的过程教练组很满意

直播吧 浏览 10417

卷首语 | “做”出来的女性主义

时尚COSMO 浏览 3720

上海人寿5.2亿存款消失之谜:向大股东利益输送?

清流 浏览 12055

卢拉表示不急于对美国采取报复措施 曾称先与中印通话

澎湃新闻 浏览 32

“会打扮”和“不会打扮”的区别在哪里?

时尚搭配师Nicole 浏览 10789

摊牌!俄罗斯要放开手脚大干,乌克兰终于变天

浏览 127

新、旧“瑞幸”之争

21世纪经济报道 浏览 9275

一滴水循环使用3.5次,台积电回应南科厂水情吃紧:营运未受影响

IT之家 浏览 10720

张恒首次发文回应黑料张恒郑爽孩子出生证明曝光

趣看热点 浏览 17860

四个男顶流火了之后怎么变丑了?

想刊刊 浏览 4651

前州长宣布退出美总统大选:永远不会让特朗普再次当选

上观新闻 浏览 28545

今年将上市 阿尔法·罗密欧首款纯电SUV Milano谍照

网易汽车 浏览 4026

勇士多惨:狂输36分西部倒四+提前放弃库里无奈 追梦场下笑引争议

醉卧浮生 浏览 4389

40大城市人均收入:京沪逼近8万大关 长沙领跑中西部

第一财经资讯 浏览 8822
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4