关闭广告

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻89人阅读

DeepSeek开源新模型:用视觉模式实现上下文压缩。

10月20日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

据公布的论文名单显示,该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,但这三位核心作者都颇为低调,其中一作作者Haoran Wei曾在阶跃星辰工作过,曾主导开发旨在实现“第二代 OCR”的GOT-OCR2.0系统。


DeepSeek-OCR的架构分为两部分。一是DeepEnco

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《一路繁花2》出圈理由

娱乐圈笔娱君 浏览 71

媒体:欧洲发起声势浩大的"撑腰"行动 结局或刺痛自己

红星新闻 浏览 230

银河基金规模拉锯战:险守千亿大关 “迷你”基金扎堆

中访网 浏览 3691

OpenAI首席执行官Sam Altman:不希望使用《纽约时报》的数据进行训练

财联社 浏览 4352

衬衫怎么穿才更得体?看看这些高级感搭配

Yuki时尚酱 浏览 6285

农妇在荒塘内开挖养鱼被控"非法占用农地罪" 家属发声

极目新闻 浏览 97

小S复出获奖细节:纹了大S名字还带了骨灰

萌神木木 浏览 81

《大侦探》抄袭台剧被监制点名,推理不行硬煽情,网友直呼:惯犯

萌神木木 浏览 4017

俄外交部召见美大使 要求美就"北溪"事件作出解释

环球网资讯 浏览 10958

卢卡申科:瓦格纳事件后白俄罗斯军队全面战备

界面新闻 浏览 41943

记住"碎花裙+短靴"的搭配技巧 远离老气土气

In风尚 浏览 11245

福建女子生下黑人女儿遭丈夫质疑 她坚称是基因突变

社会奇闻君 浏览 41595

V型反转!大金融率先开启反攻,消费板块热点逐渐扩散

Wind万得 浏览 5456

普普京:首批量产型"榛树"导弹已交付俄军

每日经济新闻 浏览 203

险资盯上荟聚商场!泰康人寿领投80亿基金“扫货”商业地产

独角金融 浏览 2086

进攻消息俄乌舆论战!乌克兰开始“反攻”了吗?

环球网资讯 浏览 8255

零跑销量相当于小米与理想之和——属于老实人的胜利

DearAuto 浏览 58

意媒:尤文完成备战皇马最后一练,米雷蒂和热格罗瓦回归合练

懂球帝 浏览 74

别问了,今年朋友圈都在打网球

时尚COSMO 浏览 52

轰24+8遭逆转:哈登27000分吞里程悲 末节连丢关键三分结束三连胜

颜小白的篮球梦 浏览 427

美国八成针头注射器来自中国,拜登动用国防生产法案促进产能

趣看热点 浏览 150382
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4