徐玉庄 投稿
量子位 | 公众号 QbitAI
对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。
不过,这个极限究竟有多大?
清华大学和哈工大的一项联合研究给出的答案是:
90%。
他们提出了大模型1bit极限压缩框架OneBit,首次实现大模型权重压缩超越90%并保留大部分(83%)能力。
可以说,玩儿的就是“既要也要”~
一起来看看。
大模型1bit量化方法来了
从剪枝、量化,到知识蒸馏、权重低秩分解,大模型已经可以实现压缩四分之一权重而几乎无损。
权重
徐玉庄 投稿
量子位 | 公众号 QbitAI
对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。
不过,这个极限究竟有多大?
清华大学和哈工大的一项联合研究给出的答案是:
90%。
他们提出了大模型1bit极限压缩框架OneBit,首次实现大模型权重压缩超越90%并保留大部分(83%)能力。
可以说,玩儿的就是“既要也要”~
一起来看看。
大模型1bit量化方法来了
从剪枝、量化,到知识蒸馏、权重低秩分解,大模型已经可以实现压缩四分之一权重而几乎无损。
权重