关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者292人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

甩掉包袱 保时捷宣布2026年起逐步关停自建充电网络,转向公共充电矩阵

封面新闻 浏览 177

一块“十全十美”饼干,盛满星辰大海的甜

我们的太空 浏览 268

字节跳动在内蒙古新设多家科技公司,注册资本合计28亿

财闻 浏览 78

《向往》收视回暖!黄磊动手做饭,明星干农活

萌神木木 浏览 280

曾经的环球小姐冠军,却一手好牌打得稀烂

历来纵横 浏览 302

“躺平”后,老干妈卖了快54亿

华尔街见闻官方 浏览 3644

纯电续航520km 深蓝S05纯电版七夕甜蜜上市11.99万元起

网易汽车 浏览 339

视频:美公布在委内瑞拉附近扣押油轮行动画面

央视新闻客户端 浏览 183

尼克斯129-101送黄蜂7连败,布伦森33分,哈特22+8+7

懂球帝 浏览 226

吴京《镖人》官宣,谢霆锋李连杰甘愿作配,票房能否破50亿?

娱乐圈笔娱君 浏览 242

廖三宁压哨三分绝杀北控险胜福建 曾凌铉33分三分9中9历史首人

醉卧浮生 浏览 118

44岁李小璐参加公开活动!怼脸拍真实状态曝光,网友态度两极分化

萌神木木 浏览 259

7场贡献3球1助攻,麦肯尼当选尤文1月最佳球员

懂球帝 浏览 90

从百亿到两百亿:董宇辉2025年做对了什么?

字母榜 浏览 1762

痛别!姚守拙同志在长沙逝世,湖南大学发布讣告

环球网资讯 浏览 395

陈晓陈妍希官宣离婚!这次不是网传了

Yuki女人故事 浏览 631

营收147亿的半导体资产遭冻结 闻泰科技:坚决反对

21世纪经济报道 浏览 664

24岁小伙深夜聚餐当场吐血 医生从他肺部取出一枚笔帽

环球网资讯 浏览 129

天空记者:若能在伤缺后恢复健康,梅努仍有望重返首发

懂球帝 浏览 174

华为乾崑靳玉志:亲自测试ADS 4一个多月,非常丝滑

网易汽车 浏览 437

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

红星新闻 浏览 136
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4