关闭广告

DeepSeek连发两篇论文背后,原来藏着一场学术接力

机器之心Pro168人阅读



编辑|张倩、陈陈

2026 年 1 月过半,我们依然没有等来 DeepSeek V4,但它的模样已经愈发清晰。

最近,DeepSeek 连发了两篇论文,一篇解决信息如何稳定流动,另一篇聚焦知识如何高效检索。

第一篇论文(mHC)出来的时候,打开论文的人都表示很懵,直呼看不懂,让 AI 助手用各种方式讲给自己听。我们也翻了翻网友的讨论,发现理解起来比较透彻的办法其实还是要回到研究脉络,看看这些年研究者们是怎么接力的。要理解第二篇论文(Conditional Memory)也是如此。

于是,我们就去翻各路研究者的分析。这个时候,我们发现了一个有意思的现象:DeepSeek 和字节 Seed 团队的很多工作其实是存在「接力」的 ——mHC 在字节 Seed 团队 HC(Hyper-Connections)的基础上进行了重大改进;Conditional Memory 则引用了字节 Seed 的 OverEncoding、UltraMem 等多项工作。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

隆源股份历史合资身份或存涉税风险,寄售库存商品监盘比例竟不足1%,国金证券是否尽责?|读懂IPO

时代周报 浏览 1245

马斯克宣布重启特斯拉Dojo 3超级计算机项目

不看车bukanche 浏览 157

舞蹈与千年古镇碰撞 第二季新市古镇舞蹈艺术季启幕

国是直通车 浏览 983

全新外观、新增大电池版本,新款比亚迪海狮05DM申报

IT之家 浏览 155

媒体:在21世纪20年代 美国总统要向外派出"总督大人"

新民周刊 浏览 161

异军突起!周四与特朗普会面顺利,贝莱德的里德尔竞选美联储主席呼声渐起

华尔街见闻官方 浏览 1024

贝巴:每个人都能轻易批评球员,但我们需要的是建设性的批评

懂球帝 浏览 235

专家:美军突袭委内瑞拉战术有新变化 有4个突出特点

北京日报客户端-长安街知事 浏览 151

熊园:9月进出口均走高的背后

首席经济学家论坛 浏览 1573

患者花费超14万手术 副主任医师把价值10万新器材扔了

重案组37号 浏览 127

影史最伟大的女性电影,登顶130年电影之巅

幕味儿 浏览 283

游客称武大共享电动车每小时要33元 运营商:校方同意

扬子晚报 浏览 426

汤唯最刻骨铭心的那段情,我每年都想重温

Yuki女人故事 浏览 293

以色列移交又一批巴勒斯坦被扣押人员遗体

环球网资讯 浏览 271

德邦快递实力夺魁:斩获中国跨境电商物流“头程物流标杆企业”奖项

中国经济时报 浏览 217

消失4年后,主持人程雷官宣一则喜讯

除夕烟火灿烂 浏览 224

嫁法国老头真相大白5个月后,41岁李宇春近况曝出

华史谈 浏览 196

中国天眼新成果发布 揭示快速射电暴双星起源关键证据

环球网资讯 浏览 155

90后“富二代”接棒零食帝国!1.5万家好想来年入323亿冲刺IPO

野马财经 浏览 9744

把玄戒O1念成“玄戒零一”,雷军认错:确实是讲错了

三言科技 浏览 182

门多萨:为马竞效力是儿时梦想,身边队友小时候在电视上看过

懂球帝 浏览 130
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4