关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位2788人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

74岁刘晓庆近况!生图皮肤白皙状态回春

艳儿说电影 浏览 208

缅北魏家杀人要求"打光所有子弹":尸骨呈跪姿 头中7弹

上游新闻 浏览 270

一战再战、王家卫、郑智化风波、杨振宁逝世、白百何等

电影最TOP 浏览 191

号称“能拍能打”,努比亚 Z80 Ultra 手机官宣 10 月 22 日发布

IT之家 浏览 263

哈格里夫斯:希望拉什福德能回曼联,俱乐部完全可以用得上他

懂球帝 浏览 121

冯德莱恩称欧洲愿继续与乌美合作 强调安全保障重要性

国际在线 浏览 135

吉利熊猫卡丁猪猪侠限定版快乐专享价4.69万元

网易汽车 浏览 319

报道称美方将启动关键矿产储备计划 中方回应

财联社 浏览 69

多给2分钟来背锅?大帝25分钟20+6丢绝杀 马克西才该为失利担责

颜小白的篮球梦 浏览 214

星河动力谷神星一号“一箭四星”海射成功

财闻 浏览 96

姚顺雨“露脸”,和唐杰杨植麟探讨AGI之路

字母榜 浏览 829

留给国外豪车的时间已经结束了

智驾网 浏览 446

陶虹与朋友相聚,17岁女儿五官与神态似徐峥

黔乡小姊妹 浏览 131

欧拉全新SUV亮相,或叫“欧拉5”?

电动邦 浏览 295

涉安世半导体 商务部发声:同意荷经济部派员来华磋商

财联社 浏览 212

任泽平发声回应但斌“认错”:理性讨论比对错更重要

财视传播 浏览 970

与独行侠续约无望!曝浓眉迫切希望交易离队 愿前往老鹰猛龙打球

罗说NBA 浏览 106

17岁小伙疑陷东南亚骗局 家人收其戴手铐跪地照片

大风新闻 浏览 157

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

静儿时尚达人 浏览 285

以军行动双线升级 胡塞武装、哈马斯高层遭精准打击

极目新闻 浏览 342

宝马圣诞视频暗藏新车剪影

大象新闻 浏览 155
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4