关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者406人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

采用全新家族设计 新款捷途山海L9官图首发

网易汽车 浏览 733

泽连斯基穿西装和曾羞辱他的记者再交锋 逗笑特朗普

译言 浏览 520

媒体:杜特尔特阵营遭继续打压 菲政府拿华人"开刀"

环球网资讯 浏览 36

杨元庆:DeepSeek出现加速混合式人工智能落地

澎湃新闻 浏览 778

“豆腐靴”火了! 比马丁靴还好看, 早冬必穿!

Yuki女人故事 浏览 230

微创、高效、直达大脑!我国科学家开辟脑卒中病灶给药新路径

环球网资讯 浏览 254

巴基斯坦和阿富汗同意立即停火

央视新闻客户端 浏览 375

《逍遥》大结局:秉烛结束了红烨,肖瑶曾为妖王!

肆季娱乐 浏览 259

马卡:皇马目前没考虑施洛特贝克,弗里克很欣赏他但转会不易

懂球帝 浏览 217

"饥饿画面"震惊全球 G7三国"转向"或刺激以色列升级行动

澎湃新闻 浏览 531

CES变成中国科技秀:机器人跳舞、熊猫获奖、眼镜会说话

霞光社 浏览 2085

43岁悄悄结婚的胡歌,被女儿戳穿了真实处境

小娱乐悠悠 浏览 286

女人过了40岁穿衣别发愁,学会这些日常穿搭,高级又显气质

静儿时尚达人 浏览 182

科学家研发可遥控癌痛克星,比阿片类药物更安全

DeepTech深科技 浏览 252

市值单日蒸发890亿!美团二季度财报,透露了什么信号?

侃见财经 浏览 1376

美伊陷入互相封锁僵局

环球网资讯 浏览 76

澳专家:我害怕的是对中国的无知

环球时报国际 浏览 531

赵继伟伤后动态!工作室确定拉伤,待医生进一步检查!

篮球资讯达人 浏览 385

悉尼枪手父亲被击毙儿子被制服 愤怒民众猛踩头部

潇湘晨报 浏览 298

五日内三家齐发,武汉企业接连闯关港股

虎投邦 浏览 1149

男子爬衡山丢80.88克金牌 失主:做好找不回的打算了

极目新闻 浏览 255
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4