关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者237人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:欧盟触碰伊朗"红线" 伊朗对欧洲的批评很醒目

环球网资讯 浏览 141

在国家德比爆发冲突后,亚马尔社媒取消对卡瓦哈尔的关注

懂球帝 浏览 232

英国AI科技界的“她力量”

新华社 浏览 306

1.5公斤黄金抵押品因涉案被扣押14年 寄卖行申请国赔

澎湃新闻 浏览 398

剑桥大学定义图形世界:神经网络让纹理压缩像画家调色一样自然

科技行者 浏览 116

米体:尤文希望在冬窗引进新后卫,目标包括什克和金玟哉

懂球帝 浏览 284

美国女子被ICE特工枪杀 曾被定性为“国内恐怖分子”

红星新闻 浏览 178

王楚然172cm真实感,有谁不爱

蕾爸退休日记 浏览 191

突破“手”的瓶颈,具身智能正加速迈向“实干”

上观新闻 浏览 174

普京与美谈崩伊总统宣布访华 前美官员:中美差距拉大

科技有趣事 浏览 432

市场博弈美联储降息

北京商报 浏览 1171

朱媛媛去世后辛柏青首露正脸,眼神空洞憔悴

胡一舸南游y 浏览 273

沪媒:上海赛更达橘橙投资人朱骏将兑现400万元冲乙奖金

懂球帝 浏览 291

骑士135-119轻取步行者,米切尔43+9+6,西亚卡姆26分

懂球帝 浏览 187

十铨推出最新P35S外接SSD:按下按钮瞬间“自爆”!

快科技 浏览 380

鲁豫想穿成她,章小蕙也爱她,152cm的她为什么能成为风格偶像?

黎贝卡的异想世界 浏览 66

知名男演员景区打工两个月成"顶流NPC" 本人回应

极目新闻 浏览 253

美军在高速公路实弹军演 万斯安保车遭炮弹碎片击中

红星新闻 浏览 275

票房炸裂,口碑崩塌,《731》到底值不值得我们为它买单

最爱酷影视 浏览 362

铁了心要走!伊萨克一周没和埃迪-豪说话,和大多数队友也没交流

直播吧 浏览 362

把所有人都骗了!《生万物》最大聪明人:不是宁学祥,不是绣绣

娱乐圈笔娱君 浏览 394
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4