可可资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

NYU研究揭示：模型宽度与能力非线性相关

卫星图像显示...

这个「疯批」...

长城汽车正式...

特朗普：俄乌...

秋到没边的氛...

辽宁98-8...

新世代BMW iX3长轴距版如何诠释＂可持续的豪华”

《哪吒2》海外票房破亿元总票房突破127亿元

每体：球打到巴萨球员手臂就会判点；轮到皇马就要“解读”

可可成本大增亿滋国际承压

杨超越最新状态曝光！身材颜值全满分！

骑士135-119轻取步行者，米切尔43+9+6，西亚卡姆26分

响应市场需求，积极推动中加经贸合作

马杜罗预计5日在纽约＂首次出庭＂

短剧女神郭宇欣让多少白幼瘦女星脸红？

德容：理解巴萨曾想卖了我，当时财政困难

证监会“女老虎”获刑7年！丈夫空降华兴资本后被查，包凡也受牵连

万倍GDP跃迁奇迹：深圳如何破译中国经济的“三重密码”？

恩里克：我们在23分钟内丢了3个球？那是对手球员的实力所致

梅西职业生涯已完成399次助攻，打入889粒进球+60次帽子戏法

广汽回应一半汽车芯片将由格力供应

3名自称宗庆后非婚生子女：母亲为娃哈哈前高管杜建英

集成双4K摄像头与AI，雷蛇Project Motoko概念耳机亮相CES 2026

中美达成共识让美豆农松口气盼望中方订单快点来

“疲惫脸”太丑了！有这些特征的女生怎么救？

一切为了销量、利润，消息称三星决定不提高Galaxy S26系列售价

杭师大受助名单照搬网络人名大额项目明细表被删除

内娱00后小花杀疯了！凭什么碾压杨幂、热巴，成为新一代女顶流？

卡内基梅隆大学打造＂神经侦探＂：让AI像破案一样学会理解语音

特朗普就伊朗问题表态伊朗：不会轻易相信美国