关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro126人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卡塞米罗重申必定离开曼联,不必再劝!曼联否认彻底轮休巴西双星

罗米的曼联博客 浏览 72

李施嬅困局:被有毒关系猎杀的富家女

仙女事件簿 浏览 354

18.99万起,智享大六座旗舰SUV风云T11上市,又要卖爆?

电车通 浏览 359

大盘五连涨!今年3次五连涨后发生了什么?

每日经济新闻 浏览 5346

风神L8/全新坦克500/全新知音 成都车展上市新车回顾

网易汽车 浏览 502

深夜,全线崩跌!发生了什么?

券商中国 浏览 2348

痛批落马副市长的市长也落马了,你别笑

识局 浏览 1081

90后宝妈网购猪食槽收纳孩子玩具走红 商家:订单超6倍

极目新闻 浏览 353

安以恩:邦本宜裕是很“高级”的球员,我们能秒懂彼此的意图

懂球帝 浏览 336

全系限时售10.98万起 比亚迪秦L EV新车型亮相成都车展

网易汽车 浏览 462

赛力斯今日登陆香港主板 成首家“A+H股”新能源车企

上游新闻 浏览 341

Anthropic发布金融AI代理,FactSet等数据服务商遭到冲击

华尔街见闻官方 浏览 2511

塔帅:若顺利哈弗茨未来几天能进名单;我们想赢得重要奖杯

懂球帝 浏览 271

俄罗斯SALUTEDEV团队VIBE:超轻量AI实现高效图片编辑

科技行者 浏览 224

小米新手表和手环曝光,REDMI K Pad2小平板电池有望大增

IT之家 浏览 225

上年纪的女人穿“长裤”更气质,这么挑选和搭配,时尚感爆棚

静儿时尚达人 浏览 371

马科斯的表弟涉丑闻辞职后 菲国内再次爆发抗议活动

环球网资讯 浏览 467

陈晓陈妍希官宣离婚:从“国民CP”到各自安好,过往细节浮出水面

Yuki女人故事 浏览 683

张雨绮,不能「装死」了

独立鱼 浏览 243

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

新智元 浏览 345

有钱都买不了!布加迪订单已经排至2029年!

郑谊 浏览 500
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4