关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者286人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

未能及时大面积复产,晨鸣纸业明起将被ST​

国际金融报 浏览 3570

腿粗、屁股大穿这3条裤子直接封神! 120斤秒变90斤!

Yuki女人故事 浏览 415

我们为什么需要节日穿搭?

时尚COSMO 浏览 176

博主:咪咕要求CBA独家版权并介意和担心抖音介入,但篮协主张非独家

懂球帝 浏览 205

最牛退休女工,靠卖易拉罐,纳税100亿

创业家 浏览 1564

以军称袭击黎巴嫩真主党多个军事目标

极目新闻 浏览 255

活塞13连胜追平队史纪录!揭秘东部黑马再次蜕变:冲击队史第4冠

罗说NBA 浏览 232

黄子佼为脱罪庭上卖惨!自曝离婚请求轻判,律师痛批毁掉别人一生

萌神木木 浏览 261

科贝:西甲首轮未出场,但罗德里戈不想离队&皇马也不要求他离队

直播吧 浏览 425

推广|| 35+变化好大?不愧是2025年花得最值的一笔钱

黎贝卡的异想世界 浏览 273

知名"富二代"所创明星机器人公司突解散 研发阵容豪华

每日经济新闻 浏览 309

高端汽车市场创2亿营收,「悉智科技」拓疆AIDC蓝海 |36氪首发

36氪 浏览 248

内存条现货价格“跳水”三成,手机厂商却在涨价,存储市场为何两极分化?

红星资本局 浏览 8055

2架美军机在南海相继坠毁 原因正在调查中

界面新闻 浏览 286

男子应聘船员出海严重晕船自缢:一吃就吐 甚至用头撞墙

极目新闻 浏览 323

铠侠开始提供新一代UFS 4.1闪存样品,随机读取速度提升90%

IT之家 浏览 141

聚焦AI+畜牧,刘松柏攻破鸡味密码,打造终身学习广东样本

南方都市报 浏览 90

继续引援脚步,多位媒体人:北京首钢正在接触前NBA球员麦基

懂球帝 浏览 192

拉齐奥新闻 / 拉特科夫缺乏出场机会,因莫比莱谈离队:早间新闻汇总

绿茵情报局 浏览 10

全球首个太空AI诞生,H100在轨炼出!马斯克爆赞

新智元 浏览 224

最高法公开征求意见!“开门杀”保险赔偿不明确或成过去时

北京商报 浏览 1155
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4