关闭广告

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者237人阅读


这项由中国科学技术大学脑认知智能感知教育部重点实验室与华为技术有限公司、天津大学智能与计算学院联合完成的研究发表于2026年的国际学习表征会议(ICLR)。有兴趣深入了解的读者可以通过论文编号arXiv:2601.21709查询完整论文。

当我们阅读一篇文章时,眼球会在不同的词语之间跳跃,有时专注于某个关键词,有时快速扫过熟悉的内容。这个过程看似随意,实际上遵循着精妙的规律。令人惊讶的是,人工智能中的大语言模型在处理文字时,也展现出了类似的"注意力"模式。然而,长期以来,科学家们对这些模式为什么会出现、如何形成,一直缺乏统一的解释。

就好比我们知道鸟儿会迁徙,但不明白它们如何选择路线一样,研究人员发现大语言模型会表现出各种注意力模式——有的像聚光灯一样反复照亮某几个重要词汇,有的像扫描仪一样按序逐个关注,还有的像万花筒一样呈现周期性变化。但这些模式背后的形成机理却始终是个谜。

这项研究的突破在于,研究团队首次提出了一个名为"时间注意力模式可预测性分析"(TAPPA)的统一框架,从时间连续性的角度解释了为什么会出现这些看似迥异的注意力模式。更重要的是,他们发现了

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

拜托,她可是陈妍希诶!

时尚COSMO 浏览 280

百万人围观,「上下文图谱」火了,万亿美元新机遇?

机器之心Pro 浏览 245

闪电快讯|东风奕派eπ007+正式上市 限时焕新价13.99万元起

电厂 浏览 310

欧洲8国集体反击特朗普 英国首相:将与美国政府交涉

极目新闻 浏览 237

美军空袭尼日利亚 至少有4枚"战斧"疑未能引爆

环球网资讯 浏览 258

特斯拉智能辅助驾驶里程已超100亿公里

大象新闻 浏览 277

“受够了女装就是男装XXS版”,不想再交粉红税的她们被「时尚户外风」哄好了

Vista氢商业 浏览 924

都体:国米想租佛罗伦萨翼卫多多,愿意送出德弗赖或阿斯拉尼

懂球帝 浏览 257

韩国强硬批驳高市"独岛"言论 韩媒:其触碰两国间雷区

环球网资讯 浏览 293

十五运会开幕式收视出炉!最高破3.9%,刘德华上场涨出小高峰

萌神木木 浏览 345

纯度更高的致敬 尚界Z7预告图发布

网易汽车 浏览 271

巴基斯坦官员称中方说服伊朗加入停火谈判 外交部回应

每日经济新闻 浏览 137

追觅办演唱会当年会撒贝宁主持 李克勤、张信哲等献唱

极目新闻 浏览 191

72岁赵雅芝1588生日会门票秒没,网友:人傻钱多

港剧叔 浏览 452

苏亚雷斯:保级信心主要来自我的球员,包括逆境中展现的决心

懂球帝 浏览 381

30岁TVB人气小花辞演《新闻女王2》感可惜:希望可以有第三部

TVB剧评社 浏览 757

旧金山大停电,谷歌无人车Waymo乱作一团,特斯拉赢麻了

华尔街见闻官方 浏览 298

中加领导人时隔8年首次会晤 外交部回应

外交部网站 浏览 353

穿出巴黎女人的姿态,要几步?

时尚COSMO 浏览 168

李鸿其王紫璇官宣结婚

扒虾侃娱 浏览 340

秋天上班族应该怎么穿衣?衬衫为主、打造腰线,利落又得体

静儿时尚达人 浏览 376
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4