这项由上海AI实验室、清华大学、哈尔滨工业大学和北京邮电大学联合完成的研究发表于2025年2月,论文标题为《Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling》。感兴趣的读者可以通过arXiv预印本平台访问完整论文(论文编号:arXiv:2502.06703v1)。
这个研究就像是发现了一个教育界的神奇现象:给学习能力一般的学生更多考试时间和辅导,他们竟然能考过那些天资聪颖但匆忙答题的尖子生。在人工智能的世界里,研究团队发现了一个同样令人震惊的事实:只有10亿参数的"小个子"AI模型,通过巧妙的"考试策略",居然能在数学推理任务上打败拥有4050亿参数的"巨无霸"AI模型。
具体来说,这项研究揭示了一个被称为"测试时计算扩展"的神奇现象。就好比两个学生面对同一道