关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者179人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马伊琍不再隐瞒,自曝离婚真相,姚笛仅冰山一角

小椰的奶奶 浏览 352

齐沃:锋线四人组兼容且互补;我不会去抱怨海外赛

懂球帝 浏览 181

10月新势力销量爆发:零跑首破7万辆,小米稳超4万辆,理想猛跌38%

21世纪经济报道 浏览 186

德国军事人员突然撤离格陵兰岛 原因不详

财联社 浏览 69

彻底清零 缅甸官宣KK园区635栋涉赌诈建筑已全数炸毁

看看新闻Knews 浏览 149

伊朗被指愿作出让步:将最高丰度浓缩铀的一半送至国外

环球网资讯 浏览 18

40余名高二学生被强收7500元网课费 两地教育局调查

大风新闻 浏览 186

高市早苗曾叫嚣台湾有事日本必入

极目新闻 浏览 200

对话新质生产力系列之二 I 松霖科技创始人、董事长周华松:以差异化战略进军机器人赛道

证券市场周刊 浏览 14808

2026款大众宝来上市 售价11.29-14.39万元

车质网 浏览 212

端侧AI芯片公司2025市值图谱

爱集微 浏览 54

初秋美拉德风炸街!这样搭配也太绝了吧!

Yuki女人故事 浏览 356

新国标电动车被指不能带小孩、超速会断电 官方回应

新京报 浏览 176

郑爽新账号遭封禁,晒自拍一个细节被人认出,疑似穿男友衣服出镜

萌神木木 浏览 86

*ST沪科面临退市风险,或还因此前信披问题遭股民索赔

雷达财经 浏览 820

媒体:在达沃斯演讲72分钟 特朗普让欧洲心脏停跳两回

看看新闻Knews 浏览 59

瞭望 | 宇宙寻亲新路径

新华社 浏览 177

撒贝宁去加拿大探望丈人,带着老婆孩子逛街

甜柠聊史 浏览 209

特朗普又改口:印巴冲突期间有7架战机被击落

环球网资讯 浏览 354

500Bar新蓝鲸 CS75PLUS智慧冠军版限时价9.19万元起

网易汽车 浏览 220

“亚洲巴菲特”,大手笔押注黄金

财通社 浏览 847
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4