关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元476人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

上海女子＂喊冤＂汽车压上石头爆胎无人赔偿网友吵翻了

环球网资讯浏览 374

倾家荡产120万上星光大道，她如今怎样了

青橘罐头浏览 437

专家：美军突袭委内瑞拉战术有新变化有4个突出特点

北京日报客户端-长安街知事浏览 380

精彩推荐

央视这波选剧真是绝了！整部剧均是整容脸，能看下去的都是能人！

肆季娱乐浏览 349

极氪启动跨代智驾众筹 24款老车主可低价直升Thor-U

网易汽车浏览 421

《向往8》暴露明星真实性格！张子枫老实，何炅诙谐，黄磊最强势

娱乐圈笔娱君浏览 520

比亚迪方程豹豹5第八次OTA开启推送：新增哨兵模式等 13 项功能

IT之家浏览 598

中国AIGC用户破5亿，增长1倍；美团：今年超7成外卖低于15元；新能源事故，「破窗锤」被网友买爆

极客公园浏览 498

梅婷首公开女儿闺房，这才是真正的富养

草莓解说体育浏览 298

2天挨4 针，韩国皮肤科，挤满“特种兵医美”的中国人

每日人物浏览 860

甜了10年，超多暧昧细节，全网求他俩原地结婚

Yuki女人故事浏览 355

地平线跻身千万俱乐部中国车载芯片进入高算力

网易汽车浏览 581

武汉女子遭遇APP投资骗局：起诉被驳回警方又不立案

上游新闻浏览 464

布朗复出27+7绿军19分逆转双杀热火西蒙斯39+7三分赛季新高

醉卧浮生浏览 385

5月开车撞利物浦球迷的司机承认故意撞人，预计12月15日宣判

懂球帝浏览 422

一年中最不能错过的推送，超适合过年看！

黎贝卡的异想世界浏览 306

34年来首次普京下令起草恢复核武器试验提议

红星新闻浏览 454

50岁女性过冬穿搭：有大衣和羽绒服就够了，简约从容才是优雅

静儿时尚达人浏览 293

全网首档AI短剧拍摄现场直播出圈指南

时尚COSMO 浏览 172

美国对伊朗考虑＂军事选项＂中方回应

澎湃新闻浏览 325

推广|| 春天第一双鞋！暴走不累、搭遍好看小裙子

黎贝卡的异想世界浏览 280

辽粤会师全运会半决赛！杨鸣：广东占天时地利人和

体坛周报浏览 424

宝藏BOSS冯擎峰：是CTO，也是CEO

网易汽车浏览 401

马斯克称新款特斯拉Roadster是“超越汽车范畴的特殊产品”

IT之家浏览 573

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
闽ICP备16027347号-4