关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元249人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2026款大众迈腾上市 售价17.99-24.69万元

车质网 浏览 226

特朗普:泽连斯基阻挠俄乌达成和平协议

环球网资讯 浏览 148

特斯拉与迪士尼合作引争议:车机引入《创:战神》车模被指广告

IT之家 浏览 260

马斯克宣布重启特斯拉Dojo 3超级计算机项目

不看车bukanche 浏览 144

伊朗:战争必须以一种让敌人永远不敢再侵略的方式结束

大象新闻 浏览 45

OPPO Find X9 系列实拍:定位“旅拍神器”,口袋里的哈苏相机

IT之家 浏览 271

抖音:近一年优质内容播放时长为普通内容的17倍

封面新闻 浏览 316

消失的1.8%,你的钱会发生什么

米筐投资 浏览 13168

麻省理工学院发明“可注射”脑机芯片,有潜力用于治疗老年痴呆症

IT之家 浏览 198

中国机会|ASML:半导体产业开放合作是主流,继续依法合规为中国客户提供坚实支持

澎湃新闻 浏览 227

俄罗斯发射高超音速导弹

大风新闻 浏览 223

76岁“欢喜哥”许绍雄病危,tvb多名艺人紧急探望,众人神情严肃

不八卦会死星人 浏览 238

《共和报》评意大利杯:“是机会还是阻碍?”

绿茵情报局 浏览 121

冲破十万大关的乐道,能否成为蔚来的“翻身之牌”?

禾颜阅车 浏览 288

玩家用PS5手柄意外获得6700台大疆扫地机器人控制权:实时视频流泄露 官方回应

快科技 浏览 74

李佳航、印小天拍短剧?还是穿越题材

最爱酷影视 浏览 291

文晏回应争奖!直言不认识白百何否认沪圈投资,白百何再次内涵

萌神木木 浏览 261

RMC:皇马球员获赠宝马车使用,姆巴佩因无驾照仅象征性领车

懂球帝 浏览 235

协议中加入"毒丸"条款 美国与印尼的贸易协议面临破裂

第一财经资讯 浏览 187

沈梦辰杜海涛宣布喜讯,3年了终于等来了今天!

Yuki女人故事 浏览 627

台积电被特朗普「盯上」了

36氪财经 浏览 1401
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4