关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位2294人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

猪价磨底,养一头亏168元!猪企主动去产能?4家下调出栏目标超800万头

时代财经 浏览 10232

多家品牌奶茶外卖,均存在强制收取包装费?

南方都市报 浏览 4777

董洁与儿子逛街吃饭:本人背影似少女 顶顶太帅了

叶公子 浏览 4993

无缘总决赛!多米尼加正式出局,中国女排躺枪,输给对手创纪录

天涯沦落人 浏览 6723

全国人大代表、长安汽车董事长朱华荣:推动汽车消费税改革

证券时报 浏览 11289

丰田为何执着复兴引擎

帮宁工作室 浏览 2332

湖南银行2024年成绩单公布!规模扩张下,营收增长几乎停滞

湘财Plus 浏览 2648

参考这些冬季穿搭,高级时尚两手抓

虎哥说衣不二 浏览 4279

哈哈哈哈哈哈哈哈哈哈哈哈!!!

时尚COSMO 浏览 4402

拿捏红毯于股掌之中的女王,这次是“机械姬”

时尚COSMO 浏览 3780

涉嫌严重违纪违法 70后博士市长辞职半年后官宣落马

上观新闻 浏览 45212

朱珠秀恩爱 老公被嘲面相不好被调侃富婆收割机

娱絮 浏览 7930

入春后发现:上海满大街都是“奶奶西装、奶奶鞋”,洋气又时髦

潮人志Fashion 浏览 2580

亚马逊据悉将淘汰数十个自有品牌,旨在抵御反垄断审查并提振利润

界面新闻 浏览 5795

中国车份额首超50%,国产品牌霸榜,智能化再加码,2024继续飚?

二师兄玩车 浏览 3659

台军“云豹”装甲车现身高雄街头 深夜机动行军

环球网资讯 浏览 10435

队报:内马尔并非不顾一切想要离开,他对恩里克的执教表示欢迎

直播吧 浏览 6916

“小米汽车”非官方手绘草图发布 颜值拉满 卖多少合适?

手机中国 浏览 6737

欧尔班:欧洲进入对俄开战准备阶段 距开火仅几步之遥

上游新闻 浏览 2293

匈牙利外长:俄罗斯将按合同向匈牙利供应石油

界面新闻 浏览 5976

华春莹晒最新对比图:中美防长释放出不同信息

环球网资讯 浏览 44461
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4