关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者238人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

5名中国游客在巴厘岛车祸死亡 伤者:司机一点伤没有

扬子晚报 浏览 238

英伟达开始在美国生产GPU,台积电加速布局

半导体行业观察 浏览 1242

空间实用/补能高效 吉利蓝气球限时钜惠价3.99万元起

网易汽车 浏览 234

彭小苒的逆袭不止“紫衣杀”

小小敏娱乐 浏览 267

被他“舍弃”的马思纯,跟张哲轩竟发光发热?

策略剖析 浏览 396

朱光耀:中美AI实力对比,中国具备三项优势

上观新闻 浏览 212

盛合晶微冲刺IPO 募资扩产引争议

北京商报 浏览 1212

微软澄清Gaming Copilot争议:截图仅用于识别游戏,不用于AI训练

IT之家 浏览 291

徐艺洋三亚美照惊艳

悦君兮君不知 浏览 225

苹果发布iPhone 17e:起售价4499元,支持实体+eSIM卡组合

澎湃新闻 浏览 85

石破茂发表战后80年"个人见解" 专家:需要政治勇气

环球网资讯 浏览 315

兴业消费金融:筑梦美好生活 扎实推进高质量发展

财经众议院 浏览 1149

美军曾复刻马杜罗住宅进行破门演练 动手第一步是断电

红星新闻 浏览 167

微星推出新服务器,最高8块英伟达RTX PRO 6000 Blackwell GPU

IT之家 浏览 331

涨价带不动业绩,“黄酒双雄”上半年刹车,古越龙山净利润被会稽山反超

时代周报 浏览 987

当AI奖励模型开始"偷懒":字节跳动如何让它们跟上AI助手的步伐

科技行者 浏览 103

向太曝关之琳头婚被骗,男方摆酒钱都未结算,难怪关美人情路大胆

不八卦会死星人 浏览 338

时尚守艺人 | 以木为纸,雕出万千世界

时尚COSMO 浏览 194

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

环球时报国际 浏览 243

2号种子险爆冷!张本智和打满5局逆转日本悍将,8强战约战勒布伦

乒谈 浏览 292

伊朗突然关闭领空引猜测 西方密集渲染"动武"威胁

环球网资讯 浏览 186
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4