关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者60人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金价算是彻底失控!不是因为涨到1000多,那些回收店排起了长队…

火山诗话 浏览 1076

今年秋天最火的4条裙子,配玛丽珍鞋绝美!

LinkFashion 浏览 81

第十届四川省大学生机器人大赛在成都启幕

封面新闻 浏览 75

PPC平台打造 全新奥迪Q5L高功率版年内上市

车质网 浏览 96

小S为大女儿15岁生日庆生网友直呼现场布置却太寒酸

趣看热点 浏览 18131

50多岁女人不要“装嫩”,掌握这些搭配原则,衣品提升一大截

静儿时尚达人 浏览 42

原来牛仔裙才是春夏最减龄的单品

Yuki时尚酱 浏览 10184

科大讯飞发布星火V3.5大模型,董事长称“底座大模型需要国家队”

蓝鲸财经 浏览 4084

60岁陈冲不服老 腰细腿长身材一点没走样

双鱼爱畅谈 浏览 11142

《王牌对王牌》最后一期为什么不请跑男家族?

趣看热点 浏览 17946

"用公权力为利益集团服务"的老虎受审后 又被公开点名

上观新闻 浏览 45458

男子称怀孕2个月的未婚妻被骗到缅甸:关在四层小楼内

上观新闻 浏览 70518

衬衫与裙子才是最适合早秋的单品 温柔又减龄

Yuki时尚酱 浏览 6105

上市24小时订单破21856台!50万的档次仅售15万多

隔壁说车老王 浏览 189

陆家嘴论坛,金融大佬们都讲了什么?

香帅的金融江湖 浏览 9066

2025款奥迪Q5L裸车只要22万多?这真能买到吗,它选哪个版本好?

蜗牛车志V 浏览 191

吴千语被传怀孕后被偶遇,小腹平平无孕味,与施伯雄机场合体超甜

扒虾侃娱 浏览 227

好家伙!《武林外传》姐妹篇开播差评一片,观众差评理由出奇一致

娱乐圈笔娱君 浏览 4333

智元新一代机器人精灵G2已获数亿元订单,并开启首批商用交付

财闻 浏览 70

马卡:皇马19岁中场尼科-帕斯即将租借加盟莱加内斯

直播吧 浏览 2233

入秋第一件打底衫!你买这3件,太好看了!

Yuki女人故事 浏览 113
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4