关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者90人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

许绍雄患癌仍敬业!今年参演9部作品努力宣传剧集

萌神木木 浏览 70

Transformer开山论文惊天"翻车"?图与代码不一致,神秘bug看傻了

新智元 浏览 10164

刘亦菲在北京吃烤肉,素颜戴墨镜气场强大

奥字侃娱 浏览 211

魏牌咖啡系列OTA重磅升级 搭载最新语音大模型

网易汽车 浏览 2664

这3款女包 被男生背出了好看的样子?

草叔BiBi机 浏览 7072

老人旅游期间睡梦中去世 家属起诉旅行社索赔15万

红星新闻 浏览 33933

芯片圈“大佬”IPO梦碎,牵出千万受贿案!

野马财经 浏览 751

美小盘股还有机会吗

国际金融报 浏览 2549

陈可辛官宣新电影女主角是章子怡 工作室修图太狠

萌神木木 浏览 7943

越南楼市崩了

格隆汇 浏览 8266

桑托斯3-1科林蒂安,罗埃塞点射破门,巴雷亚尔传射

懂球帝 浏览 84

意媒:佛罗伦萨关注阿拉维斯中场布兰科,转会费1000万欧

懂球帝 浏览 2215

iPhone手机半夜“自动给陌生人打电话” 苹果客服回应

极目新闻 浏览 51

今日热点:春晚第一次大彩排明星阵容;于正再回应......

伊周潮流 浏览 4696

喜报!识局助力落户在湖北麻城的食品制造项目已正式动工!

识局 浏览 1869

学习胖东来、山姆、开市客!乐尔乐调改

新零售财经 浏览 3840

男子花9.9万元买一台机器人 出租十几次后赚了20万元

封面新闻 浏览 444

客观评价房地产的重要性、问题及建议

泽平宏观 浏览 5403

"北大女生自杀案"宣判:男友犯虐待罪被判三年二个月

京法网事 浏览 44562

正式上线,GitHub向所有用户开放全新代码搜索引擎

机器之心Pro 浏览 9977

秋季的穿衣难度并不高,选择基础款、配色不沉闷,舒适又减龄

静儿时尚达人 浏览 98
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4