可可资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

7岁女童在动...

记者：阿根廷...

芒米Pock...

安东尼·戈登...

比尔·盖茨被...

媒体：日本挖...

苏翊鸣：我仍是那个热爱单板滑雪的少年，下个周期或许别样精彩

央行：1月23日将开展9000亿元1年期MLF操作

哈兰德终于圆梦世界杯仅用43分钟就追平挪威队史纪录

瓜迪奥拉：胡桑诺夫明天可上场踢几分钟；罗德里还没完全恢复

售17.98万起方程豹钛7首周上险量为1257台

预售20.99万元起新款领克10正式下线

徐峥这一出手，若不出意外，这部耗资7亿的大片估计得“封神”

斯维拉尔：球迷一直提醒我们，罗马德比是一年最重要的比赛

阿维塔赴港冲刺IPO：“国家队”新能源稀缺标的，115亿押注华为背后

跨年档12部新片来袭！没有大片全是情怀，55岁古天乐对打71岁成龙

ESPN：由于接受了手术，菲利普斯预计要到冬窗才能离开曼城

美军演练与解放军大规模作战专家分析

金球奖撒糖、霉霉破纪录与“鲍小强”翻车

女护士被同居男友杀害家属：放弃赔偿希望判男方死刑

全尺寸SUV定位奕境首台工程样车下线/量产版4月发布

被他“舍弃”的马思纯，跟张哲轩竟发光发热？

一颗“空心菜”与跨越山河的科研梦——巴基斯坦学子奥朗在南开锻造成“星”

成都车展八大重磅新车来袭，个个“看点”十足，想买车的先等等！

比亚迪RACCO内饰官图发布将于今夏在日本市场发布

34.99万起以价换量新一代宝马X3改打＂稳守反击＂

国家级5G智慧工厂背书，全新深蓝S07上市交付

AI能力“非线性提升”，这被市场普遍低估！大摩：90%职业将受影响，就业结构将“根本转变”

51岁徐静蕾和黄立行逛超市被偶遇，俩人穿着朴素

强奸大嫂凶手出狱去大嫂家大嫂吓得穿内衣跑街上求救