关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元215人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

半夏投资创始人李蓓新“战场”:12888元卖课、“下凡”小红书!

独角金融 浏览 901

半年7轮亿元融资,智平方完成新一轮A系列融资

网易科技报道 浏览 327

狗仔曝司晓迪靠代付过活,加一起才962块,狗仔被网友骂到破防!

萌神木木 浏览 110

为什么说本田这个“内燃机之王”,在国内被严重低估了

少数派报告Report 浏览 128

王思聪卷入“陪酒”风波,鞠婧祎被牵连

秋姐居 浏览 119

40+女人冬季穿衣,质感优先、简约配色、扬长避短,优雅高级

静儿时尚达人 浏览 81

从L3规模运营到L4全球输出,北汽新能源自动驾驶商业化版图已明

北京商报 浏览 93

XREAL 1S AR眼镜发布,全球首搭内容2D→3D自动转换

IT之家 浏览 149

今日热点:贾斯汀比伯回归;宋佳回应获奖感言出圈……

伊周潮流 浏览 430

“下沉剧宣”越来越不好用了?

时尚COSMO 浏览 107

赵睿为地域歧视言论道歉:不该将情绪发泄球迷身上 感谢监督批评

醉卧浮生 浏览 77

强掳马杜罗后 特朗普又"敲打"莫迪:让我高兴很重要

看看新闻Knews 浏览 89

凯塞多:之前没意识到自己的进球能力,现在会尝试并靠近禁区

懂球帝 浏览 67

男子家中冰箱门关不上灵机一动求助AI 差点花了冤枉钱

潇湘晨报 浏览 97

日本政客鼓吹发展核武 还锅甩给特朗普

澎湃新闻 浏览 366

美媒感叹:中美已不存在贸易战了 中国巨轮势不可挡

澎湃新闻 浏览 189

鸿蒙智行尊界S800“时代旗舰”轿车第1万台下线

IT之家 浏览 159

主销售价45万起,极氪8X路试谍照曝光

网易汽车 浏览 144

新款腾势Z9GT申报图曝光 续航大增/似推单电机版本

网易汽车 浏览 83

推广|| 张曼玉穿着优衣库上了热搜!这个混搭法则太好用了

黎贝卡的异想世界 浏览 351

上海女子"喊冤"汽车压上石头爆胎无人赔偿 网友吵翻了

环球网资讯 浏览 116
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4