关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元364人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新版《保管合同(示范文本)》发布 进一步明确权责促进交易公平

央视财经 浏览 1076

26款丰田皇冠陆放上市:新增黑金色,28.48万起

IT之家 浏览 343

瞭望 | 宇宙寻亲新路径

新华社 浏览 315

杨紫再让观众刮目相看,打破宋丹丹当年“忠告”

佳佳优选家居 浏览 909

62岁钱小豪移居中山,每日买菜做饭生活简单,称很多朋友住附近

小撇说事 浏览 479

以总理意欲“全面占领加沙” 美拒绝明确表态

国际在线 浏览 496

国安2-4海牛历史首次主场输给对手,此前12战10胜2平仅失3球

懂球帝 浏览 367

新前锋定了⌛记者:米兰正在敲定博尼法斯,交易已在走流程

直播吧 浏览 498

新疆官方:西尔扎提右膝前交叉韧带部分撕裂,赛季报销

懂球帝 浏览 170

俄朝站队怒批高市 特朗普迅速与日切割中方警告很罕见

现代小青青慕慕 浏览 341

合肥夜空上演“硬核”科技告白:1024架无人机点亮AI愿景

中安在线 浏览 365

还是他,太敢说了!果然有些车企,只是把激光雷达卖给你,当摆设

小李车评李建红 浏览 292

切尔西本赛季英超10名不同球员破门,与阿森纳并列最多

懂球帝 浏览 384

网约车送断指乘客在交警带路闯红灯时出车祸 被判全责

新民晚报 浏览 283

辽粤会师全运会半决赛!杨鸣:广东占天时地利人和

体坛周报 浏览 333

太强了!单月销量近9万?压着特斯拉打的“中国新势力”诞生了

少数派报告Report 浏览 259

沃尔沃XC70:豪华超混第一车的“破局”之道

网易汽车 浏览 537

冬天想穿得轻盈保暖,看看这些大衣穿搭,大方舒适又有高级感

静儿时尚达人 浏览 329

年少成名的张一山似乎成为了下一个文章,一步错步步错,争议不断

新语爱八卦 浏览 598

今年流行的“新老钱风”,优雅又时髦,太适合春天了!

LinkFashion 浏览 174

重兵集结下美伊本周再谈 特朗普面临两个选择

澎湃新闻 浏览 188
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4