可可资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

NYU研究揭示：模型宽度与能力非线性相关

姆巴佩全新＂...

看到《无名指...

回归哈弗H序...

字节跳动:因...

零下30度，...

RedPla...

小区居民听说家门口要办＂殡葬一条街＂炸锅了:非常膈应

柴高潮被公诉：宾馆服务员出身边腐边升干到副厅级

岚图卢放：打破百年成见重构豪华轿车价值标准

美国父亲在家喝酒将2岁女儿留车内致身亡入狱前自杀

老板电器2025半年报：从厨电专家到烹饪伙伴，以烹饪专业筑基打开增长新空间

极氪 001 车型预计今年第四季度进行产品更新

科幻神作首度来袭，苏州跨年放映今日开票！

广汽回应一半汽车芯片将由格力供应

李平康：国安在谈一名东欧外教，其人在北京&还是以前的渠道

谷歌推迟安卓设备上谷歌Assistant向Gemini的迁移计划

“WPS”上热搜！雷军为金山办公实控人，员工平均年薪约38万，金山此前发文：雷军任名誉董事长，不领薪酬

沃尔沃汽车2月至4月全球销量同比下滑10%

白宫公布＂特朗普与普京通话＂照万斯和鲁比奥在场旁听

独家对话旺仔小乔“榜一大哥”：一场直播曾打赏7万元，让自己别为她难过而改名“别难过”

他是刘德华的绯闻男友，也是唯一绝交的朋友

W盛典找座位学问太多！杨幂孙俪欢快热聊，刘诗诗和李庚希同桌

瓜帅：维拉一直是最难对付的对手；多库的1对1能力让他很特别

全新一代丰田Hilux将于11月10日正式发布

守不住，阿森纳连续20次联赛对利物浦每场都失球

伊朗警告若再遭袭将开启战斗3.0

Slack CEO 加盟 OpenAI，担任公司首席营收官

AI算力需求升级国产算力迎持续发展窗口期

乐高乐园是伪装成迪士尼的少年宫

科技氛围浓郁全新奥迪Q5L内饰正式公布