关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者332人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

齐沃:意大利足球不以进球多著称;恩里克和迪乌夫终会迎来闪耀时刻

懂球帝 浏览 370

沪指低开0.28% 算力硬件方向领跌

网易财经 浏览 478

F1空气动力学下的超级跑车,阿斯顿·马丁Valhalla来袭

ams车评网 浏览 496

国防部:美方应切实约束一线部队

界面新闻 浏览 519

女人到了三四十岁穿衣要显贵,这些穿搭值得借鉴,大方又好看

静儿时尚达人 浏览 173

卖了3199万元 德信集团董事长杭州豪宅被拍卖抵债

红星新闻 浏览 248

美国脱口秀主持人讽刺特朗普:他演都不演了

环球网资讯 浏览 295

潘江:古德温确实很匹配山西,但因种种原因离开我们确实没办法

懂球帝 浏览 246

99年女生读博时退学去开公司修家电:好评近100%

大象新闻 浏览 141

终于等到井柏然秀恩爱

科学发掘 浏览 502

中国电动汽车出口欧洲通道打通,谁最受益?

电动汽车观察家 浏览 230

王鹤棣凭一己之力整得大家都不舒服了

伊周潮流 浏览 49

哈马斯:解除武装被提上议程

央视新闻客户端 浏览 392

美军演练与解放军大规模作战 专家分析

北京日报 浏览 172

晚点独家丨大定突破今年4万产能上限,新ES8帮蔚来赢得更多机会

晚点LatePost 浏览 434

美抢先预告开始安排"普泽会" 俄罗斯口径截然不同

上观新闻 浏览 536

十分亮眼,阿马德5场非洲杯比赛贡献3球1助,3次获得全场最佳

懂球帝 浏览 253

原配打"小三"8年后再被刑拘 "第三者":下衣被扯掉裸露

中国新闻周刊 浏览 339

沈逸:美国威胁不买中国"地沟油" 已被拆解得体无完肤

澎湃新闻 浏览 366

刘亦菲更新初雪美图,穿12W外套雪中遛狗

观察鉴娱 浏览 308

陈赫40岁生日合影惹争议?

萌神木木 浏览 341
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4