关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者366人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普政府8日召集美石油巨头 "推销"委石油投资计划

澎湃新闻 浏览 235

德转意甲身价涨幅榜:帕莱斯特拉+1650万,巴尔泰萨吉+1500万

懂球帝 浏览 272

知情人士:乌克兰要俄全额赔偿战时损失

红星新闻 浏览 501

成都天府国际空港综合保税区通过验收

央视财经 浏览 1052

限时价17.38万起 "卷王"吉利银河M9上市

网易汽车 浏览 464

张建勇、张国富等22人增持北汽蓝谷 刘观桥增持花了4年工资

道哥说车 浏览 239

何小鹏:“如果你想害一个哥们,你就劝他去造车吧” 小鹏汽车曾一年换十余名高管

红星资本局 浏览 916

范曾晚节不保?亲题牌匾下堆满烂鞋,还曾给释永信美女弟子题字

萌神木木 浏览 488

美国会高层称对驻德美军撤出计划“深感担忧”

国际在线 浏览 93

新一轮货币宽松到来

泽平宏观展望 浏览 1934

尘埃落定!全部划归国资!许家印的“御用包工头”被掏空家底

壹只灰鸽子 浏览 1497

姚晨回应即将到期“赎身”!真是弹指一挥间...

犀利辣椒 浏览 341

百度发布2025年Q2财报:营收327亿元 净利74亿元

网易科技报道 浏览 501

小鹏第二代VLA本月推送,2026款小鹏X9纯电版上市

定焦One 浏览 5634

媒体:美国中期选举后 特朗普或成"跛脚鸭"被"吊打"

新民周刊 浏览 230

老天包办的婚姻就叫缘分?

时尚COSMO 浏览 541

美无人机出现在委内瑞拉近海

北青网-北京青年报 浏览 276

搭载高阶智驾 广汽传祺M8乾崑系列官图发布

网易汽车 浏览 694

RMC:皇马球员获赠宝马车使用,姆巴佩因无驾照仅象征性领车

懂球帝 浏览 342

尼昂:外界没帮莱奥,他需要帮助

懂球帝 浏览 26

专家:高市早苗收敛了一贯对华强硬的鹰派色彩

北京日报客户端 浏览 341
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4