可可资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

乐高乐园是伪...

外卖“烧钱”...

内饰迎巨变 ...

蔚来ES9领...

超离谱判罚！...

Bella的...

美最新两种无人战斗机完成首飞空战新时代正加速到来

混动系统为内燃机续命沃尔沃最新消息曝光

一文解读杨振宁的百年人生密码曾与爱因斯坦做同事

向太曝关之琳头婚被骗，男方摆酒钱都未结算，难怪关美人情路大胆

或将于2027年发布全新宝马X7假想图曝光

新能源购置税“末班车”，上还是不上？

巴媒质问：忘恩负义的阿富汗是否正成为印度代理人

辽宁舰在太平洋飙车，俄罗斯航母却终场哨响

为什么最好全款买蔚来ES8，也不要贷款分期买？套路实在太多了

帕克怒喷奥纳纳：他甚至都算不上门将，这些人到底谁找的？

搭上芯片“黑马”新凯来的光伏龙头，高管集体减持，股价大跌超7%

今年秋冬，流行“九分”穿法，时髦又显高！

今年最火的鞋子好怪，但是她们好爱！

12万人挤爆，成都跨年集体狂欢

新年强势开局！AI需求叠加供给趋紧，存储芯片迎来集体反弹

联想 moto razr 60 系列手机获中国线上市场安卓小折叠销量第一

医托＂忽悠＂病患去中医馆:大师退休前挂号费600 现在50

Aqara绿米推出U400智能锁：自带UWB超宽带，可实现无感解锁

女子1天接五六通催收电话崩溃:欠钱的是不熟的前同事

科氪 | 荣耀MagicOS 10重构智能体验：AI成伙伴，全品牌互联破冰

双后场助76人客场掀翻凯尔特人三分投不准时绿军该咋办？

舒默公开指责特朗普：总统无权独自将国家带向战争

俄方表示结束乌克兰危机“欧洲方案”不具建设性

中信银行开年搅局！中信金租增资至120亿，杀进头部第八位