关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位2660人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

股民有些承受不起了

格隆汇 浏览 5532

争夺女性用户,李想抢不过雷军

字母榜 浏览 1052

比特币首次站上12万美元

第一财经资讯 浏览 244

“因你不同”,多色凡尔赛C5X亮相成都车展

汽车头条APP 浏览 12440

美军高官称希望韩建核潜艇对抗中国 还引了句"蜘蛛侠"

澎湃新闻 浏览 38

“这条裙子”才是今年的顶流,怎么搭都时髦

LinkFashion 浏览 89

巴菲特变了吗,说好的“买入并持有”呢?

大摩财经 浏览 11955

企业家代表委员热议新质生产力:关键在科技创新

澎湃新闻 浏览 5460

打造全球好物“首发首秀地”,东方购物白玉兰直播间首度亮相第八届进博会

上观新闻 浏览 58

宁德时代:钠新乘用车动力电池正在与客户推进开发、落地中

IT之家 浏览 77

仅播2集就口碑大爆,收视率破1.2,这才是国产都市剧该有的样子!

娱乐圈笔娱君 浏览 73

被美围绕的一周:上课、逛家、看展

黎贝卡的异想世界 浏览 80

中国男篮28次抢断103-45狂胜蒙古取开门红,张懿赵杰27+6+5+4

懂球帝 浏览 180

郑乃馨又起飞了,没有作品只能搞抽象

芊手若 浏览 182

账面资金高达43亿,却要募集13亿,这家老牌企业差不差钱?

IPO日报 浏览 968

浙江为7名省管干部集中开澄清会 涉及隐私未公开详情

中国新闻周刊 浏览 45116

贾跃亭:FF永远不会推出低于50万的电动车

汽车商业评论杂志 浏览 6109

贾跃亭:FX Super One 车型在美国汉福德工厂试制顺利

IT之家 浏览 206

预售21.99万元起,蔚来旗下乐道L60银色实车曝光

IT之家 浏览 2679

王嘉尔澳门吃饭被偶遇 皮肤白皙侧颜帅气!

笑猫说说 浏览 4801

硅谷高管和美议员将举行私人晚宴 密谋对华科技脱钩

环球网资讯 浏览 60817
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4