关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者135人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今年最火的4双平底鞋,配白裙子穿好看又松弛!

LinkFashion 浏览 14

鸿蒙智行首款MPV智界V9完成申报,采用7座布局

IT之家 浏览 159

浙大团队突破:AI实现多人脸精准生成

科技行者 浏览 273

声音更加动听 本田全新一代混合动力系统最新消息曝光

乐选爱车 浏览 181

优雅,与皱纹无关

Yuki女人故事 浏览 65

国乒官宣!王楚钦孙颖莎领衔出战亚锦赛,战果影响伦敦世乒赛资格

乒谈 浏览 337

从宗馥莉到王思聪 为何企二代陷"接班困局"?

BT财经 浏览 580

媒体人:青岛男篮签下清华附中内线李俊贤 上赛季获耐高北区MVP

直播吧 浏览 378

世体:坎塞洛、巴尔德和赫拉德-马丁各有特点,首发难以确定

懂球帝 浏览 86

意媒:罗马正在评估引进斯特林的可行性,可能提出租借方案

懂球帝 浏览 139

美媒:美军事小组抵达以色列 “监督”执行加沙停火协议

环球网资讯 浏览 301

星巴克和它所代表的一切,正与我们渐行渐远

虎嗅APP 浏览 2593

宝马集团失守中国市场:2025年全球销量微增0.5%,中国销量下滑12.5%

红星资本局 浏览 1029

特朗普:将对任何涉嫌向美"走私毒品"的国家实施打击

每日经济新闻 浏览 203

避免引发恐慌 中东多国收紧社媒敏感信息管控

环球网资讯 浏览 59

Manus最新爆料:公司收入运行率达9000万美元

网易科技报道 浏览 351

欧洲敲定大军入乌计划 冯德莱恩:特朗普承诺"做后盾"

澎湃新闻 浏览 435

德约科维奇仅训练12分钟便显露痛苦状态,澳网前景引发担忧

网球之家 浏览 152

开扒女明星穿了5年以上的外套,原来都有一个共同点

黎贝卡的异想世界 浏览 225

莫迪视察印度首艘国产航母:名字就让巴基斯坦睡不着

鲁中晨报 浏览 288

iPhone17在中国卖爆,苹果成为全球手机出货第一

观察者网 浏览 150
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4