关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者224人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《小城大事》上星央八 热血筑梦正当时

小小李娱 浏览 134

媒体:特朗普关税战半年 市场没能打得开还弄丢了

新民晚报 浏览 243

天岳先进在港交所上市,创始人是“济南前首富”

红星资本局 浏览 894

跌出西部前6!东契奇空砍30+15+8,湖人100-112不敌尼克斯

全景体育V 浏览 113

50+女性如何打造不费力的优雅?答案藏在这3个细节里,快照搬

静儿时尚达人 浏览 376

零跑新 T03 五门纯电小车上市:80kW 电机,5.99 万元起

IT之家 浏览 616

加油枪喷油导致男子严重烧伤 加油站:不存在任何过错

大风新闻 浏览 145

媒体人:刘雁宇将以租借形式加盟吉林男篮

直播吧 浏览 347

蓝军太难黑猫太黑!切尔西一周内两张脸

体坛周报 浏览 255

未成年女性称被爱泼斯坦当"孵化器" 还遭公司高管强奸

红星新闻 浏览 116

美否决全球最大光伏电站之一 特朗普曾称全球变暖是骗局

澎湃新闻 浏览 300

男子被外卖车撞成十级伤残:小哥说"要超时送了再说"

封面新闻 浏览 443

零跑造豪车,“优衣库”依然是朱江明最坚硬的铠甲

雪豹财经社 浏览 1274

胖东来招聘网站被挤爆 8.9元"面试真题"被公开叫卖

每日经济新闻 浏览 421

特朗普警告:如果以吞并约旦河西岸 将失去美所有支持

鲁中晨报 浏览 210

重马"破三"选手终点附近倒地离世 业内人士:切勿透支

扬子晚报 浏览 147

刘亦菲早年 告白遭考古,老己竟是全网粉丝?

山野卢员外 浏览 192

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

1818黄金眼 浏览 154

足球报:北京市体育局与足协相关领导都会现场观战足协杯决赛

懂球帝 浏览 195

上千网友帮女孩杀猪 主厨:这么多张嘴挂身上压力太大

极目新闻 浏览 130

记者实测 多地办理电话卡需提供无犯罪证明和银行流水

澎湃新闻 浏览 230
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4