关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者253人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

你的基础款,差一双Y3K银色球鞋

时尚COSMO 浏览 502

3月5日将上市 比亚迪海豹07EV有望搭载闪充技术

网易汽车 浏览 153

上市24小时订单破21856台!50万的档次仅售15万多

隔壁说车老王 浏览 494

泰国:洪森父子若入境 将被马上逮捕

鲁中晨报 浏览 536

造车新势力,重要时刻!

中国基金报 浏览 264

特朗普:庞大兵力将很快抵达伊朗

参考消息 浏览 213

大爷奔现后吃野菜度日:女友自称老板 会给我买房买车

小莉帮忙 浏览 26

搞起:小米澎湃 OS 3 系统将支持 NFC 刷卡上岛

IT之家 浏览 531

Kid退赛,脱人倒油:脱口秀撞梗抄袭难定义?

仙女事件簿 浏览 474

九三阅兵最后一次夜间演练画面公开

央视新闻客户端 浏览 440

贝弗利:安东尼曾因不想跟林书豪同队而没跟哈登和霍华德组三巨头

懂球帝 浏览 341

汽车行业杂耍式营销何时休?

道哥说车 浏览 269

非法集资911亿元 “金融大鳄”盘继彪终审被判无期

每日经济新闻 浏览 284

淘宝闪购日订单再破8000万,不含自提及0元购

观察者网 浏览 613

市场定位模糊!贝莱德基金本土化试水困局,主动权益产品边缘化

新经济e线 浏览 982

特朗普:伊朗刚告知我们 他们已处于"崩溃状态"

每日经济新闻 浏览 89

这家公司制造“全球快乐”,现在却似乎快乐不起来

IPO日报 浏览 4341

美众院通过修正案 或禁止美军从中俄购买数字显示器

澎湃新闻 浏览 435

万斯警告泽连斯基:不要说特朗普"坏话" 会适得其反

环球网资讯 浏览 780

迈瑞医疗市值跌了三千亿,第三次上市,74岁李西廷越来越忙

懂财帝 浏览 1382

CBA第22轮最佳阵容:段昂君8三分首次客胜北京 四字新星生涯之战

醉卧浮生 浏览 249
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4