关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro111人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

双十一特惠5折,双厨狂喜:智本社X财新

智本社 浏览 1457

退出春晚、被综艺开除,贾玲的下场竟然如此?

阅识 浏览 388

阿联酋宣布退出欧佩克 阿联酋能源部长回应

央视新闻客户端 浏览 91

特斯拉 Model Y L 交流外供电适配器上架,售价 599 元

IT之家 浏览 376

林俊杰被诊断出心脏病,44岁未婚无子

涵豆说娱 浏览 745

曝古二家人被骚扰!90多岁外婆被人找上门,难怪放录音重锤王家卫

萌神木木 浏览 323

解码东道主意大利的冲金版图 丰塔纳的最后一舞

体坛周报 浏览 244

姑姑霸占侄女房住近10年 村委:姑姑一家分了540平房子

极目新闻 浏览 527

4月起 光伏产品出口退税归零 千亿产业 谁在窃喜?

中国能源网 浏览 1080

与众07实车曝光!长超4米8+续航558km

Ai爱车 浏览 228

北京降雪来袭 多家超市保供稳价进行时

中国商报 浏览 998

陈匡怡怒斥台媒毁人名节,自曝写了遗书

萌神木木 浏览 276

美国父母起诉OpenAI:指控ChatGPT害死其16岁儿子

文汇报 浏览 467

博洛尼亚-佛罗伦萨,瓦诺利:“这场胜利是为了带来喜悦。将罗科留下的价值观带到场上”

绿茵情报局 浏览 232

女子开宝马住高端小区却偷榴莲 保安提醒后她又拿2件

潇湘晨报 浏览 242

谈到中国留学生 特朗普:要跟核大国搞好关系

澎湃新闻 浏览 505

商务部公告附件首次改为wps格式,金山办公的信创未来该咋看?

江瀚视野 浏览 1294

特朗普称庞大舰队驶向伊朗 已超委内瑞拉

财联社 浏览 210

德云社岳云鹏五姐包大巴车,带亲友们看演唱会

情感大头说说 浏览 388

李雨桐情绪失控!发文怒斥薛之谦联手妻子坑害她

萌神木木 浏览 193

余嘉豪:扣完篮肾上腺素就上来了,但得马上冷静继续投入比赛

懂球帝 浏览 317
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4