关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者148人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

戴森新一代无叶冷暖风扇AM15发布,首发价3790元

IT之家 浏览 220

聊聊全新奥迪A6L 也许豪华行政市场要换风向了

网易汽车 浏览 313

安世中国:已建立充足成品与在制品库存,能稳定持续满足客户订单需求

澎湃新闻 浏览 270

网红版闫学晶!600万粉博主阿爆翻车

萌神木木 浏览 134

17岁少年网购虚假退货"薅羊毛"获利超400万 被判刑6年

北青网-北京青年报 浏览 169

诺和诺德董事长携6名董事集体辞职,董事会“大换血”,年薪5000万CEO此前离任

红星资本局 浏览 1174

试驾深蓝S09:带“家”旅行 配置一“部”到位

驾仕派 浏览 287

辽宁舰在太平洋飙车,俄罗斯航母却终场哨响

浏览 493

谁在重塑中国财富格局?AI前十强企业合计价值超1.8万亿,暴涨207%

时代周报 浏览 1796

塞维利亚vs奥萨苏纳:夸西、胡安卢-桑切斯首发,劳尔-加西亚、博约莫出战

懂球帝 浏览 260

保时捷下一代电动 718 Cayman 原型车路测图曝光

IT之家 浏览 261

豪华5座中大型SUV!续航2327km,瞄准理想L6

隔壁说车老王 浏览 242

郑丽文出席联合祭祖大典:盼未来中华儿女不再自相残杀

海峡导报社 浏览 183

美媒猜测"中国第六代战机项目"

环球时报国际 浏览 149

美国发射洲际弹道导弹 俄方回应

央视新闻客户端 浏览 241

被曲解的雷军:“安全至上”与“好看第一”并不冲突

虎嗅APP 浏览 7695

7人站桥栏上疑"跳水留影" 6人入水瞬间桥栏倒塌

大风新闻 浏览 434

将于四季度上市 东风日产新款天籁亮相

车质网 浏览 283

李娜×新狮铂拓界:源于价值理念的同频共振

网易汽车 浏览 196

今年最好看的5条裙子,配“这双鞋”又美又气质!

LinkFashion 浏览 22

核心产品已在轨数十台套,激光通信光传输链路解决方案提供商「聿凡领光」完成数千万元Pre-A轮融资|36氪首发

36氪 浏览 429
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4