关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101247人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普:格陵兰岛非常重要 北约若离开了美国啥也不是

澎湃新闻 浏览 168

“做次反派,人生爽翻”

时尚COSMO 浏览 273

拐点来临!苏宁易购“大店战略”三年成效显现

时代周报 浏览 593

美媒猜测"中国第六代战机项目"

环球时报国际 浏览 148

委内瑞拉防长:特朗普封锁加勒比海域是“妄想”

每日经济新闻 浏览 191

金鸡国产电影展|片单发布:百廿回眸,新程再启

幕味儿 浏览 245

29岁国乒老将临危受命?淘汰黄友政状态回暖 锁世界杯后冲世乒赛

颜小白的篮球梦 浏览 49

梦想100万亿美元,追觅CEO却忙着网络通缉

金角财经 浏览 884

定位大型SUV 腾势N8L将于10月28日上市

车质网 浏览 281

游刃有余!施罗德15中8贡献19分5助 正负值+29

直播吧 浏览 324

1000亿美元!华人干出全球第四大AI独角兽

智东西 浏览 403

痛经的女性,正在猛灌中男“保健酒”

她刊 浏览 202

内维尔:姆伯莫的射门相当离谱且草率,他需要改进临门一脚

懂球帝 浏览 214

“搞抽象”的董明珠,在做一场危险的品牌实验

刺猬公社 浏览 681

泽连斯基称乌将在柏林和哥本哈根设立武器出口办事处

环球网资讯 浏览 206

联合国秘书长呼吁抓住机遇 结束加沙冲突

国际在线 浏览 259

今日热点:电影《震耳欲聋》定档1004;《惊天魔盗团3》发布新预告……

伊周潮流 浏览 358

马斯切拉诺:我对穆勒的记忆并不美好;希望运气在我们这边

懂球帝 浏览 210

“这条裙子”才是今年的顶流,怎么搭都时髦

LinkFashion 浏览 305

41名ATP人员被困迪拜梅总打趣来场闭门赛,周意发文称成战地记者

网球之家 浏览 95

伊朗革命卫队呼吁为真主党领导人被杀“复仇”

参考消息 浏览 223
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4