关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者40人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马龙社媒回复王楚钦生日祝福:还要靠你呢

懂球帝 浏览 88

谁的责任?荷兰禁区7人“站桩”,克罗地亚轻松传中破门

直播吧 浏览 8032

“小米收购恒大汽车”?官方回应

电动知家 浏览 2640

买珠宝像买糖果,这位亚裔名媛因奢华挥霍走红

外滩TheBund 浏览 8002

“史上最长”春节点燃旅游热情 已有心急旅客下单

新京报 浏览 54

停火协议失效?一觉醒来中东再次开打

浏览 283

韩寒低调,电影却不低调

幕味儿 浏览 4191

120公里时速L3破局:广汽昊铂A800引领智能驾驶新赛道

澎湃新闻 浏览 11

成都女子被家暴16次案男方:申请重新鉴定女方伤情

上游新闻 浏览 27798

官方:步行者续约主帅卡莱尔;上赛季率队打进总决赛

懂球帝 浏览 231

官宣:歼31出了新型号,全球独创侧面双弹舱

浏览 2261

王暖暖花6年才离掉婚 男方母亲曾带女子探监和他相亲

新京报 浏览 99

斥资5000万美元,Meta前CTO让海洋帮忙除碳

DeepTech深科技 浏览 7845

官方披露:退休干部曾招募敢死队密谋暴力行动

界面新闻 浏览 6161

累计交付323.6万辆,大众汽车集团2023销量成绩公布

天天汽车 浏览 4251

好声音赞助商直播间被波及:关评论 放李玟的歌

三言科技 浏览 5870

纳指收创新高:特斯拉涨超6% 市值一夜大增近2800亿元

每日经济新闻 浏览 15928

重磅!这项业务试点正式上线

中国基金报 浏览 11796

鸭脖不香了?卤味巨头们去年业绩齐跌,绝味食品筹划赴港上市

证券时报e公司 浏览 12064

对比三个真实原型的疯狂行径,我才知B级片的尺度,只是个开胃菜

皮皮电影 浏览 3787

中国海军越来越强大了,俄罗斯如此感叹

浏览 2632
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4