关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者331人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

冬天的毛衣,越“大”越好看!

LinkFashion 浏览 299

马卡:比利亚雷亚尔将免签21岁阿根廷边锋蒂亚戈-费尔南德斯

懂球帝 浏览 304

拉斯帕多里:意大利拥有成功所需的一切;我对加盟马竞很满意

懂球帝 浏览 314

标杆的智能化进阶 试驾一汽-大众全新速腾L

车质网 浏览 400

国亮新材IPO:行业产能过剩、竞争对手强大,未来发展出路在哪里

览富财经网 浏览 2401

越来越流行的松弛感穿搭,照着穿就很好看

LinkFashion 浏览 115

风云T9L全解析:“理工男”的浪漫情怀该如何表达?

汽湃 浏览 91

足球报:国安并非没考虑过土帅,针对今年问题已做长远规划

懂球帝 浏览 408

有一种“差距”叫欧豪和马思纯

趣文说娱 浏览 501

苹果预计今年不会发布标准版 iPhone 18 推迟到 2027 年

威锋网 浏览 268

夏天尽量少穿一身黑,试试印花裙和露肩上衣,高级又显气质

静儿时尚达人 浏览 611

解锁刘浩存的「红运」密码 | 高清镜头后的底气

时尚COSMO 浏览 75

德云社家产之争落幕!郭麒麟婉拒继承人之位?

一娱三分地 浏览 506

女生被同学殴打13次后确诊精神分裂 当地启动全面复查

大风新闻 浏览 360

150-165cm,小个子秋天这么穿好看到爆!

Yuki女人故事 浏览 393

伊朗国安会前高官:引爆美伊冲突存多种可能

澎湃新闻 浏览 176

2025国产公交车1-11月出口:宇通6512辆,比亚迪第2,厦门金龙第6

小鹏财经 浏览 1400

北约举行一年一度“坚定正午”核演习

极目新闻 浏览 397

美国12月ISM制造业PMI意外创2024年以来最大萎缩,库存拖累

华尔街见闻官方 浏览 658

苹果手机返校季优惠开闸,“学生资质”售卖火热,律师提示“代买”风险

红星资本局 浏览 9744

闻泰科技百亿半导体资产控制权受限

南方都市报 浏览 1373
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4