关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro78人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

香港迪士尼偶遇奚梦瑶,儿子女儿被保镖贴身保护

情感大头说说 浏览 345

婚后的申敏儿,爱上了穿牛仔

时尚COSMO 浏览 47

高市早苗当选首相 日本史上首名"第一先生"信息披露

环球网资讯 浏览 371

香港科技大学发现图片压缩优化AI内存效率

科技行者 浏览 320

倪萍又说大实话,感叹李施嬅爱情里像“当妈”

疯说时尚 浏览 331

她曾追求刘德华至家破人亡,如今怎么样了

除夕烟火灿烂 浏览 314

我国2025全年词元累计调用量约21100万亿

IT之家 浏览 53

女子不喜欢名字"丽春"多次申请改名被拒 县公安局回应

环球网资讯 浏览 371

出行场景升级/还支持餐厅排队 方程豹钛7推送第二次OTA

网易汽车 浏览 225

16倍大牛股天普股份遭证监会立案,公司市值已从不足17亿增至292亿元

红星资本局 浏览 1134

20岁身价5000万欧!卫报:因被阿莫林边缘化,梅努想要离开曼联

直播吧 浏览 468

卫冕冠军首轮出局!菲尼克斯水星2-1淘汰纽约自由人挺进次轮

直播吧 浏览 430

华东智能无人系统试验测试认证基地全面完工 占地76亩

财闻 浏览 362

车企不敢!专家:希望推出伤亡率车型榜单,新能源车极端事故不多

小李车评李建红 浏览 317

像颜如晶这样坚持,做什么都会成功吧!

时尚COSMO 浏览 242

苹果芯片不够用了

北京商报 浏览 862

日本前外相:高市言论"可能开启一条通往战争的道路"

参考消息 浏览 272

梓渝施洛华官宣预热!5天连更藏着什么破局密码

让生活充满温暖 浏览 226

Altman放话:2028年,超级智能将超越人类

钛媒体APP 浏览 172

蔡卓妍林俊贤结婚,3枚婚戒超65万,男主搬入女方豪宅同居生活

素素娱乐 浏览 64

新能源大三排SUV的猎杀时刻开始了

汽车公社 浏览 271
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4