关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者403人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

标配激光雷达、磁流变悬架 深蓝L06预售13.99万元起

网易汽车 浏览 335

大S逝世一周年 S家没通知大S子女惹争议

萌神木木 浏览 248

媒体:郑丽文当选回复大陆贺电 表述难得一见意义重大

经济观察报 浏览 370

曾亲历阅兵的退役军人:训练瘦20斤 有队友体重降50斤

上观新闻 浏览 461

38岁后单赛季为意甲升班马攻入至少4球,瓦尔迪是历史第二人

懂球帝 浏览 286

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 298

塞维利亚vs奥萨苏纳:夸西、胡安卢-桑切斯首发,劳尔-加西亚、博约莫出战

懂球帝 浏览 343

3年剑指10万店,小咖咖啡将拿出6亿资金赋能门店增长

斑马消费 浏览 4210

董璇张维依三亚带娃,这才是家庭最舒服的样子

吴霶爱体育 浏览 183

共享电单车下沉战升级!松果出行递表港股,业务覆盖全国422个市县|港E声

时代周报 浏览 1320

为财政刺激计划融资,日本拟增发逾11.5万亿日元新债

华尔街见闻官方 浏览 4653

越南终于要与中国“接轨”了 媒体:具有划时代意义

新民周刊 浏览 766

懒懒陪王思聪低调过38岁生日,晒甜蜜日常

丁丁鲤史纪 浏览 291

AI带货频频“翻车”,谁应负责?

虎嗅APP 浏览 1234

零跑D19定档10月16日,旗舰SUV全球首秀

网易汽车 浏览 458

莱万特3-0大胜塞维利亚,卡洛斯-阿尔瓦雷斯、卡洛斯-埃斯皮破门

懂球帝 浏览 255

泰柬刚停火又开打 媒体:"特朗普和平"成了笑话

新京报 浏览 273

人类会彻底沦为无用阶级吗?

虎嗅APP 浏览 3016

涉及5个师数万以军士兵 以军进攻加沙城计划细节披露

环球网资讯 浏览 517

崩老头爆火背后:20块一句“哥哥”,击穿百万中年男人

功夫财经 浏览 6665

8个观众,票房仅233元,2025年9月最惨新片诞生了

靠谱电影君 浏览 487
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4