关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位2467人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

在抖音商城38好物节,众品牌、商家以低价格、好服务成就好生意

一点财经 浏览 4431

茅台卖咖啡,28 元起一杯,含1.8ML茅台酒

红星资本局 浏览 9233

冬天适合穿什么外套?这三种款式时尚好搭

Yuki时尚酱 浏览 4484

科学家发现首个中等质量黑洞,质量约为太阳的142倍

趣看热点 浏览 17060

努尔基奇:国际赛场和NBA完全不同 但字母哥仍然具有统治力

直播吧 浏览 28

客户集中度过高?英伟达隐忧浮现:前两大神秘客户贡献近四成营收

财联社 浏览 865

《以法之名》万潮扮演者,是王俊凯同学

兔姐吃瓜 浏览 91

737MAX事故多发,监管如何做?

澎湃新闻 浏览 4210

宋志平:加强五种能力建设,全面提高上市公司质量

中国企业家杂志 浏览 11936

想花钱的欲望到达next level(白日梦版)

YOKA网 浏览 2202

拉波尔塔怒怼特巴斯:又摘下了假面具,显示自己是反巴萨主义者

直播吧 浏览 10748

毅玲爸爸开播获得1.2亿点赞,拒绝300万捐助,为病友家庭撑伞

素素娱乐 浏览 4473

德天空:戴尔确定将加盟拜仁,他已经抵达慕尼黑

懂球帝 浏览 4379

马国明透露将与汤洛雯在年底前结婚 自曝想生两个

网易娱乐 浏览 11277

多巴胺穿搭究竟为什么这么火?

LinkFashion 浏览 8202

胖东来招聘网站被挤爆 8.9元"面试真题"被公开叫卖

每日经济新闻 浏览 36

中国科学院突破电解水制氢技术瓶颈,MOFs 电极实现规模化应用

IT之家 浏览 32

Claude用户注意:聊天记录将被用于AI训练,默认同意

IT之家 浏览 36

春节返程:有人花35元餐车觅座 有人5次换乘节省4千

上游新闻 浏览 33436

九三阅兵以新型四代装备为主体 特点公布

央视新闻 浏览 64

小米汽车李肖爽回应 YU7 被要求下线 7 天内付尾款:会认真对待

IT之家 浏览 37
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4