可可资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

今年秋天，有...

4个显高显瘦...

赵丽颖新剧收...

港股无人矿卡...

开普勒人形机...

微软35岁印...

国米本赛季11粒进球中4粒来自角球，身高超1.88米的球员有10位

美媒扒哈登末节细节：快船追到只差15分登哥穿训练服两眼空洞

理财的，注意这两个风险！

小马、文远回港上市但自动驾驶还没赢家

华东智能无人系统试验测试认证基地全面完工占地76亩

一夜之间，矛盾又升级了！

今日热点：卢靖姗韩庚官宣二胎出生；路行退出《再见爱人5》……

黄多多，一款自带“腥风血雨”体质的星二代

俄称打击乌军多处目标乌称击退俄进攻

越遮越高级，搞穿搭原来真不看脸？

悲喜交加，葛优出演了一部载入史册的佳作！

皮衣+裙子、大衣+运动鞋，这4组搭配照着穿就很时髦！

今年春天最火的4双平底鞋，配裤子穿高级又松弛！

支持老东家，阿什利-扬晒自己现场观战曼联客战阿森纳照片

黄仁勋这波杀疯了 NVIDIA RTX Spark首测跑分：碾压苹果M5 54%！

中超第27轮传球成功率榜：国安第一

知名男演员景区打工两个月成＂顶流NPC＂本人回应

秦雯回应太傲慢！绝症编剧维权艰难，网友痛批《繁花》剧组残忍

恭喜，今年暑期档最大赢家，终于出现了

9.78-11.48万元荣威M7 DMH开启预售

国足出战FIFA系列赛！媒体人热议：托国际足联福，别一直闭门造车

美媒：特朗普敲打高市要求日本在台海问题上降调

能效与性能兼得新一代帕里斯帝预售29.38万元起

英伟达XR AI发布，AR眼镜迎来AI代理时代，消费电子全链共振