关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者147人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

离婚不到两年!汪峰揭开与章子怡的婚姻真相

祝晓塬 浏览 612

富勒姆出价3500万英镑求购鲍勃

体坛周报 浏览 134

RMC:皇马球员获赠宝马车使用,姆巴佩因无驾照仅象征性领车

懂球帝 浏览 251

女子连续偷吃5个蛋挞 转身大摇大摆走掉

极目新闻 浏览 384

克洛普:斯洛特是特别好的人;当时没人告诉我还能这么花钱

懂球帝 浏览 290

43岁香港著名星二代和外籍男友已未婚生了孩子

阿废冷眼观察所 浏览 193

白百何疑开撕王传君!曝沪圈要求文晏给男方撕奖,白百何发文内涵

萌神木木 浏览 246

陈小春在沈阳开演唱会,被东北观众感动到流泪

小娱乐悠悠 浏览 204

DeepSeek连发两篇论文背后,原来藏着一场学术接力

机器之心Pro 浏览 170

用19种语言24小时为学生服务,院士吴志强展示“硅基”的吴志强

澎湃新闻 浏览 393

同游仍少年!精灵世界空降杭州

时尚COSMO 浏览 283

2026款小米SU7即将上市!最高纯电续航902Km

小史谈车 浏览 61

横琴人寿去年净亏3.27亿,保险业务收入同比下滑23%

密探财经 浏览 18746

陈晓陈妍希官宣离婚:从“国民CP”到各自安好,过往细节浮出水面

Yuki女人故事 浏览 599

账面1000多亿,却隐藏20多年,整个互联网都找不到它长什么样

壹只灰鸽子 浏览 743

东体:吴曦曾因脚踝肿胀放血缓解,医疗主管赞其“太硬了,战士”

直播吧 浏览 403

春晚阵容曝光!十年来最强的演出阵容

阿纂看事 浏览 135

苹果新手机开售即破发 砍单到几乎停产

21世纪经济报道 浏览 267

以色列“接管加沙城”决定被多方谴责

环球网资讯 浏览 412

中国女主管跳海逃生:豪华邮轮上,多的是你不知道的事

她刊 浏览 65

秋天穿一件开着花的衣服,很美!

LinkFashion 浏览 418
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4