关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro125人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

盘点史上无冠但进年终男选手,穆塞蒂并不孤单!

网球之家 浏览 320

测Manus 1.5:丝滑,超预期,Manus独特上下文工程的一次关键展示

硅星人 浏览 374

董璇自曝高云翔偷偷再婚,疑似澳洲事件结束半年后,她并不在意

温柔娱公子 浏览 513

马杜罗被指遭"发小"出卖 委"二号人物"疑与美接触数月

扬子晚报 浏览 250

媒体:赖清德再当汉奸"卖台" 看美媒报道一定心碎一地

环球时报新闻 浏览 294

董璇二婚又出幺蛾子!老公歪嘴满脸褶软饭硬吃

胡一舸南游y 浏览 488

东体:地区超重塑观众的心理认同,足协应让草根和职业贯通

懂球帝 浏览 435

泽连斯基:美提议举行美俄乌国家安全顾问级别会议

国际在线 浏览 263

吴尊元旦晒全家福!一家四口笑容灿烂温馨幸福

失宠的小野猪 浏览 283

记忆|慕津锋:追忆杨振宁先生

上观新闻 浏览 362

不管在什么地方 你都是那样拉轰的男人

星球商业评论 浏览 2214

德拉克斯勒谈去卡塔尔踢球:赚钱给家人经济支持没什么好羞愧的

直播吧 浏览 547

女子遭家暴驾车逃跑致丈夫身亡获刑11年 已上诉称无罪

红星新闻 浏览 388

章泽天最新创业,轰动全网!评论区疯狂点名刘强东

财通社 浏览 2006

马克龙把美国网红告上法庭 计划证明夫人天生是女性

扬子晚报 浏览 440

篮协主席:中国男篮这个团体很可爱,无论未来输赢要把拼搏和团结保持住

懂球帝 浏览 527

看了观众对何赛飞的评价,我才明白当年郭宝昌那番话的含金量

娱乐圈笔娱君 浏览 357

“纸质书+VR”开启科普新形态 《寻梦天宫:中国空间站建设纪实》在京发布

封面新闻 浏览 248

弗里克:首先要不失球;费兰明天能上

懂球帝 浏览 220

国内生产国内不卖?比亚迪高管亲口承认,这款车要“回流”国内了

小李车评李建红 浏览 385

前英超裁判:桑德兰绝杀切尔西的进球因越位应被取消

懂球帝 浏览 364
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4