关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101335人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

交易对价约3.66亿元,华大智造拟收购两大前沿业务

南方都市报 浏览 932

午后再创新高!A股还能上车吗?

国际金融报 浏览 2866

曼联双核复出战切尔西!阿莫林称教皇来也不放弃343,拒谈加纳乔

罗米的曼联博客 浏览 429

10月工信部新车合集:合资车企还在发力

爱驾天下 浏览 383

我军测试某新型反导武器 指挥屏全是马赛克

看看新闻Knews 浏览 77

IU的脸,真的有自己的时间线

时尚COSMO 浏览 65

新前锋定了⌛记者:米兰正在敲定博尼法斯,交易已在走流程

直播吧 浏览 500

在南海坠毁的美军机比F-35还贵 单价1亿美元

参考消息 浏览 310

和以前不一样了 2026北京车展的上汽答卷

网易汽车 浏览 85

就两岸关系 郑丽文、马英九最新表态

新京报政事儿 浏览 343

中国天眼新成果发布 揭示快速射电暴双星起源关键证据

环球网资讯 浏览 238

小S发跨年照纪念大S 对比去年跨年照不止少一个

并不擅长圈粉的铁任 浏览 263

白山云霍涛:智能体时代,信任是比体验更高的「生死壁垒」

节点财经 浏览 1105

美日印澳4国大使北京会谈 不到24小时印度向中国示好

南宫一二 浏览 249

轮圈选择丰富/金标开放选装 新一代SU7更多细节

网易汽车 浏览 260

SpaceX将于10月14日最后一次发射"星舰V2"

IT之家 浏览 418

博弈并购,豹变未来:时代传媒集团2025上市公司高质量发展论坛暨第四届董秘沙龙将在苏州举办

时代周报 浏览 8717

10天内5省迎新任副省长:两人是70后 两人跨省调整

国是直通车 浏览 40

以称打死两名越过加沙地带“黄线”人员

环球网资讯 浏览 363

25款巴博斯G900 XLP 900 6x6 现车来袭,自贸区平行进口优惠中

WJW 浏览 525

牛的!库兹马9中4得13分6板 末节限制小卡&锁死哈登关键三分

直播吧 浏览 631
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4