关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元270人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

王家卫录音曝光,内容信息很炸裂

林轻吟 浏览 260

荣耀MagicOS 10系统第四批内测招募开启,截至11月19日

IT之家 浏览 229

重磅 | 2025中国消费年度智能创新名录揭晓:揭开消费增长的“虚与实”

第一财经商业数据中心 浏览 707

万斯警告泽连斯基:不要说特朗普"坏话" 会适得其反

环球网资讯 浏览 695

李斌喊话余承东:做爆胎测试!余承东最新回应

第一财经资讯 浏览 657

范雨林:实力硬汉却不红,娶普通人低调过日子

失宠的小野猪 浏览 173

初秋穿什么才最适合?准备好以下这些单品,日常穿衣不再发愁

静儿时尚达人 浏览 375

鲍威尔回应遭刑事调查:都是借口 想逼美联储降息

红星新闻 浏览 157

刘润:企业盈利的5种模型

创业家 浏览 1347

香港火灾现场明火已逐渐被扑灭 消防员将开始上楼搜救

每日经济新闻 浏览 232

KAIST团队让大模型记忆力暴涨3倍的神奇方法

科技行者 浏览 370

新一代理想L9电池加码体型加大 重夺高端话语权

网易汽车 浏览 139

印度稀土转卖丑闻曝光,伪造文件骗取稀土转卖老美

大国观察眼 浏览 824

辞旧迎新,元旦档电影满意度发布!

幕味儿 浏览 159

北京国安迎来成立33周年生日,海报中工体和球迷交相辉映

懂球帝 浏览 189

马斯克xAI污水处理厂破土动工,每年可为孟菲斯节约近190亿升水

IT之家 浏览 331

先开一把,内马尔确定落选巴西队大名单后在社媒晒打CS照片

懂球帝 浏览 54

全新MG4预售价7.38万 实力剑指比亚迪海豚

隔壁说车老王 浏览 426

世体:霍安-加西亚恢复顺利,不排除入选本周末联赛大名单

懂球帝 浏览 285

伯利再挖布莱顿,邮报:前布莱顿技术总监威尔加盟斯特拉斯堡

懂球帝 浏览 255

谁是真汇源?

经济观察报 浏览 1641
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4