关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻10798人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

宁波网友投诉到理发店理发被诱导消费:1次花了6万元

潇湘晨报 浏览 79

百度与四维图新地图纠纷案终审维持原判 百度:将申请再审

贝壳财经 浏览 4206

下面哪一种“姿势”是你的入睡姿势呢?

Yuki女人故事 浏览 2327

京东系高层大换防

全天候科技 浏览 7305

不能和中国战第二轮?特朗普被送上被告席

浏览 2567

成龙满嘴谎话?却被兄弟公开指责吝啬人品差?

小娱乐悠悠 浏览 82

英媒:为增加对俄压力 英将把"瓦格纳"列为恐怖组织

环球网资讯 浏览 10181

首款中国超跑,比亚迪仰望 U9 将入驻《GT 赛车 7》

IT之家 浏览 78

新思科技计划收购Ansys,交易总价值约350亿美元

界面新闻 浏览 5243

集结了三大天王出演的《超级学校霸王》,你不知道的幕后冷知识

趣看热点 浏览 18263

世界田联公布最佳田赛运动员候选:杜普兰蒂斯在列

懂球帝 浏览 75

越秀房托半年收入超10亿,国金中心写字楼出租率下滑,四季酒店房费上涨

时代财经 浏览 7498

精选流行女发100款,有长有短很时尚

镜子发型 浏览 10891

至高省3万,奔驰品牌车型立享腾势全系车型置换补贴

网易汽车 浏览 205

这可能是今天上海电影节争议最大的一幕!

小彭哥搞笑视频 浏览 8044

在杜兰特面前文班亚马还需要学习 未来是你的但现在还不是!

直播吧 浏览 5145

女子带1枚步枪实弹在西安机场登机被拘

北青网-北京青年报 浏览 11058

上年纪的女人,建议衣服松一点,颜色淡一些,更高级大方

静儿时尚达人 浏览 220

美媒报道称布林肯将在几周内访华 外交部回应

环球网 浏览 46457

扎波罗热地方官员:扎波罗热核电站情况稳定

环球网资讯 浏览 8021

从车展到海外市场,成都车企跑出“全球加速度”

红星新闻 浏览 169
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4