关闭广告

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

华尔街见闻官方183人阅读

来源:机器之心

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。<

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

财经观察:担忧产业短板,欧盟自查“经济瓶颈”

环球网资讯 浏览 927

有了AI,课堂如何“教”与“学”?

看看新闻Knews 浏览 314

一颗“空心菜”与跨越山河的科研梦——巴基斯坦学子奥朗在南开锻造成“星”

环球网资讯 浏览 160

从0度穿到20度,这件衣服才是今年冬天的“顶流”!

LinkFashion 浏览 175

国常会重磅部署!

数据宝 浏览 1204

香港中文大学团队突破:让AI有了"超级记忆",多步推理能力飙升!

科技行者 浏览 176

汽车图谱㉔|1月车市调整:上汽销量居首,吉利逆势增长

贝壳财经 浏览 128

塔吉克斯坦总统强烈谴责塔阿边境地区武装袭击事件

环球网资讯 浏览 233

董路:我给宋凯提了1建议但没被采纳 邵佳一力劝安东尼奥放弃传控

风过乡 浏览 153

英特尔与谷歌围绕至强CPU与定制IPU深化双方多年合作

IT之家 浏览 13

那是演唱会吗?那是我挂的专家号

时尚COSMO 浏览 444

瞄准机器人“全身体检”:集智股份控股谱麦科技,能否构筑产业闭环?

时代周报 浏览 1204

大疆Osmo Pocket 4云台Vlog相机被曝3月发布,分标准/Pro版

IT之家 浏览 136

郭京飞年代剧《老舅》今晚央视播,阵容强要火

娱君坠星河 浏览 215

陈丽华告别仪式举行:学生怀念其手把手教学

红星新闻 浏览 7

陈涛:保级不能只寄希望于领袖球员;结果不好,我一人来承担

懂球帝 浏览 279

特朗普和马斯克考虑给美选民发钱 每户或能获5000美元

界面新闻 浏览 693

特朗普宣布将亲自设计战列舰:我是一个非常有审美的人

澎湃新闻 浏览 166

结构性货币政策工具扩容 降准降息可期

北京商报 浏览 1912

AI重塑就业版图 专项政策护航转型之路

北京商报 浏览 146

发布多模态交互开发套件,发力硬件抢占入口!阿里云已兵分两条路布局AI手机

时代财经 浏览 165
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4