关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技280人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上身基础,下身就不基础

时尚COSMO 浏览 399

西方媒体炒作“伊朗加速生产导弹”

环球网资讯 浏览 212

王晶大嘴巴!时隔14年爆谢霆锋张柏芝离婚原因,艳照门并非导火索

温柔娱公子 浏览 385

腾讯集团高级副总裁郭凯天:坚持智能向善,构筑人与AI的信任机制

上游新闻 浏览 266

谢林汉姆:雅克松经验丰富,切尔西不应该放他离开

懂球帝 浏览 300

聚焦第五届上海知识产权创新奖——中国科学院上海微系统与信息技术研究所成果转化处

上观新闻 浏览 262

阿奇姆彭遭成都球迷种族歧视,队长王上源发文声援

懂球帝 浏览 241

亚冠搞笑一幕:打完架后,河内球员找国安要水喝被拒,只能捡水喝

风过乡 浏览 334

王天辰十年蛰伏终获认可 双剧同播展演技高光

老王的视角 浏览 65

力挺法老!紫菜蛋花兔发声了!

嘻笑堂 浏览 653

腾讯元宝派宣布支持接入OpenClaw

环球网资讯 浏览 48

现身非洲杯,姆巴佩去看他父亲祖国喀麦隆对阵科特迪瓦的比赛

懂球帝 浏览 178

报道称美方将启动关键矿产储备计划 中方回应

财联社 浏览 116

鸿蒙智行的上限,该重新评估了

汽车公社 浏览 222

售13.88万 吉利皮卡千里金刚电混 PLUS 四驱版上市

网易汽车 浏览 352

智己LS9上市32.28万起 两个Ultra都是高配

网易汽车 浏览 201

配置升级 长安Lumin宝藏版将于10月30日上市

车质网 浏览 269

ESPN:因内马尔的身体状况和高额薪资,桑托斯不急于和他续约

懂球帝 浏览 265

腾讯 QQ 严打网络诈骗,上半年处置涉诈群组及账号超 450 万个

IT之家 浏览 392

MINI与Paul Smith合作推出设计师款 东京车展首秀

网易汽车 浏览 224

曾亲历阅兵的退役军人:训练瘦20斤 有队友体重降50斤

上观新闻 浏览 360
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4