关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者329人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

伊姐周日热推:电视剧《老舅》;电视剧《哑舍》......

伊周潮流 浏览 293

卡塔尔正式投诉以色列:公然侵犯主权 违反国际公约

上观新闻 浏览 432

29分钟打卡29+13!坎宁安完压布伦森被赞MVP 尼克斯陷4连败泥沼

颜小白的篮球梦 浏览 222

DeepSeek阴影下的大厂

伯虎财经 浏览 3263

向云朵索要传票的主播们,戏演的很棒 但又有破绽

黄小仙的搞笑视频 浏览 514

eSIM来了,但还在来的路上

北京商报 浏览 394

周星驰新片被传空降春节档,制作成本3.8亿,票房能否冲击40亿

娱乐圈笔娱君 浏览 223

东体:傅欢大概率留在海港;防线还会是引援方向

懂球帝 浏览 232

名宿:拜仁选孔帕尼,如同中了头奖

体坛周报 浏览 345

卡纳瓦罗:我会继续努力学习,看看以后是否有机会执教意大利

懂球帝 浏览 319

纯电续航345km 小鹏X9增程版将于四季度上市

车质网 浏览 403

特朗普称是自己让大家变得更富有:我的敌人也过得很好

红星新闻 浏览 250

颜值能打、空间够用 长安Lumin宝藏版4.79万起

网易汽车 浏览 323

美股存储芯片全线爆发,美光科技猛涨10%,闪迪涨超9%,英特尔涨超7%,国际油价突破100美元

21世纪经济报道 浏览 77

机票“锁座”变相收费 10家航司被约谈

北京商报 浏览 5264

短剧要翻拍《新英雄本色》,短剧一哥刘萧旭主演,海报有内味儿

最爱酷影视 浏览 353

又一部大爆剧出现了!

伊周潮流 浏览 105

舒梅切尔:我天赋异禀,在场上有非凡的预判能力

仰卧撑 浏览 676

海外投资者争做基石!摩根大通:中国药企全球竞争力提升,投融资持续活跃

券商中国 浏览 1302

泰国为何“硬刚”特朗普 非要把仗打到底?

上观新闻 浏览 307

赵本山:从家喻户晓到一夜消失

脑洞乌托邦小乌 浏览 313
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4