关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技239人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

俄登山家被困海拔7000米处其子求援 队友送物资后遇难

红星新闻 浏览 375

令人振奋!中国天空新巨兽出世!瞬间就爽了

浏览 435

格陵兰岛"任何情况下都不接受美接管"

新京报 浏览 96

巴基斯坦和阿富汗同意继续停火 将于11月继续会谈

环球网资讯 浏览 193

乐子还得喜友来,这个喜综团建给人笑麻了!

吐槽电影院 浏览 27

商务部公告附件首次改为wps格式,金山办公的信创未来该咋看?

江瀚视野 浏览 1135

从“百模大战”到“百镜大战”,AI眼镜成新焦点丨一克商评

封面新闻 浏览 213

何晴去世后续:儿子出生户口不能上自己家

古希腊掌管月桂的神 浏览 138

阿斯:皇马想延续阿拉巴和吕迪格的成功,以免签的方式签中卫

懂球帝 浏览 65

阿里千问开源四款Qwen3.5小尺寸模型

IT之家 浏览 2

《小城大事》:那么宏大,却又那么儿戏,我还是弃剧了

娱乐圈笔娱君 浏览 98

泽连斯基:会谈富有成效 但美乌在领土问题上立场不同

国际在线 浏览 137

环球圆桌对话:G7打造“稀土联盟”更像是政治表演

环球网资讯 浏览 763

量产版明年上市 AUDI E SUV概念车亮相

车质网 浏览 125

开张了,加纳乔斩获切尔西生涯处子球

懂球帝 浏览 192

亏损超10.6亿,中美观众差评出奇一致,好莱坞年度票房惨案来了

靠谱电影君 浏览 208

女人过了50岁,穿衣掌握好这4个简单套路,轻松穿出高级感

静儿时尚达人 浏览 380

罗永浩炮轰电信宽带缩水:再不解决,就要在网上发疯了

观察者网 浏览 117

辞旧迎新,元旦档电影满意度发布!

幕味儿 浏览 102

18.51亿元!这家信托100%股权,第三次挂牌!

券商中国 浏览 2417

8699元学习机成“大板砖”!维修要2499元,家长:交了智商税

北京商报 浏览 245
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4