可可资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

岚图卢放：打...

美团Keet...

万科三季度净...

对话千岛沈振...

卡拉格：曼城...

新奥能源研究...

南洋理工、腾讯等机构联手突破：让AI像人一样＂指点＂图片中的东西

2025浦江创新论坛主论坛举行，汇聚全球智慧力量，构建开放合作科技共同体

德约领衔ATP阿德莱德站正赛名单

2026款海狮06EV开启交付成为全国首批上市闪充纯电车型

日本呼吁各国不要参加中国九三阅兵活动外交部回应

生育津贴直接发放至个人这些地方已实现

理想汽车调整销服体系！总部直管，李想：9月i8挑战月销过万

英伟达入股英特尔

阶段性企稳？飞天茅台价格普涨，经销商称“过节需求出货量大”

高市连退两步石破茂：中日关系决定日本是否存在

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名

某厂子系8E5迭代机曝光，预计为小米REDMI K100系列

美军击沉伊朗军舰致104人死亡现场视频公布

900V架构打造莲花ForMe将于3月29日上市

冬天想穿得轻盈保暖，看看这些大衣穿搭，大方舒适又有高级感

初三男生杀害女同学前检索会担什么责出庭时变胖变白

车长5米3 华为乾崑奕境首款旗舰大六座SUV定名X9

现场直击｜神舟21号升空前6小时，带你沉浸式追火箭！

法国小众跑车的短暂荣光：Hommell Berlinette

俄罗斯将对多艘核潜艇进行改造

塞尔记者：维尼修斯迎来绝佳机会，皇马希望主场球迷不要嘘他

黄金有关税收新政落地首周，市场各方反应如何？

未婚未育男子将遗产留给外甥遗嘱却写错名字法院判了

月产能等同于过去一年、海外销售拉升毛利率泡泡玛特狂奔