关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元365人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗马诺:费内巴切就埃德森提交了新报价,转会正在走向实质

懂球帝 浏览 499

HuggingChat Omni 集成式 AI 平台发布

IT之家 浏览 378

万科公告:郁亮到龄退休

财视传播 浏览 1794

彻底对标苹果?小米17 Air要来,可iPhone Air都凉了

雷科技 浏览 341

反击美国"变脸"普京即将公布神秘新武器 专家分析

环球网资讯 浏览 401

是到了该聊聊今年北影节的时候了

幕味儿 浏览 733

鲁尼:恩里克是顶级教头,5-2领先还在大举压上争取更多进球

懂球帝 浏览 89

大幅上调英伟达目标价,这家大行的理由:台积电产能分配远超预期,OpenAI“闭环交易”

华尔街见闻官方 浏览 1171

中戏否认闫学晶儿子读新疆班,官方发文打假闫学晶!

素素娱乐 浏览 253

全球21队已锁定2026世界杯资格,阿根廷、巴西、日本、韩国在列

懂球帝 浏览 383

出海成基金重仓依据!公募挖掘业绩增长“第二曲线”

券商中国 浏览 9978

香港重磅活动,17日盛大开启!

中国基金报 浏览 298

皱着眉头在看《诉讼女王》......

时尚COSMO 浏览 284

媒体人:刘雁宇将以租借形式加盟吉林男篮

直播吧 浏览 451

小黑靴不流行了?今年冬天最火的靴子竟然是它

LinkFashion 浏览 262

一农商行员工骗贷1600万,曾任某支行行长,以农村残疾困难户名义贷出上百万

新京报 浏览 4628

陈晓最新露面瘦脱相!新剧要和陈妍希对打,女方离婚后状态更好

萌神木木 浏览 332

鸿蒙智行五界十车登陆成都车展,树立中国智能汽车新标杆

红星新闻 浏览 517

日本外务省高官今日访华 将解释高市早苗言论

界面新闻 浏览 347

看看这些穿搭就知道,秋季穿衣很简单,找对方法舒适又得体

静儿时尚达人 浏览 335

热爱正当时,新晋蛙后唐钱婷的双面人生

时尚COSMO 浏览 284
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4