关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷10154人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

短剧要翻拍《新英雄本色》,短剧一哥刘萧旭主演,海报有内味儿

最爱酷影视 浏览 67

夏天衣服千万别买太多,认准T恤和连衣裙,舒适大方又高级

静儿时尚达人 浏览 267

FIBA3x3巴库女子系列赛:四川远达第六 中国女队位列第十

直播吧 浏览 6097

局势紧张!波兰边境增兵

环球网资讯 浏览 6156

王一博耐克终止合作,坚决维护祖国利益

趣看热点 浏览 17450

有人被拖欠工资!毫末智行北京总部人去楼空,员工抱着显示器离开;曝ASML为美国监控中国客户!官方否认;雷军斥资超1亿港元增持小米

雷峰网 浏览 37

今年秋天,穿得越放松越好看!

LinkFashion 浏览 231

推广|| 35+变化好大?不愧是2025年花得最值的一笔钱

黎贝卡的异想世界 浏览 68

机票“锁座”变相收费 10家航司被约谈

北京商报 浏览 4953

门店全部下线 西安知名餐饮企业"正面刚"美团

环球网资讯 浏览 44382

共和党女议员发表争议言论 认为美国应该"一分为二"

环球时报新闻 浏览 186062

董明珠:企业要给社会提供价值,而不是赚多少钱

澎湃新闻 浏览 4794

珠峰获救女子到达长沙 当面感谢两名施救者

每日经济新闻 浏览 46583

德媒:面对美军进逼 委内瑞拉亮出俄制武器

参考消息 浏览 47

茅台,泸州老窖,开始像房地产“去库存”

说财猫 浏览 4790

夏天穿衣主打简约清爽 24套搭配舒服还减龄

七柒时尚笔记 浏览 7266

国安部提醒"军迷":发布涉军信息易给境外军方"指路"

环球网资讯 浏览 4134

大S承认不止一次流产 称不希望以讹传讹

网易娱乐 浏览 10840

华硕带来ROG XG Station 3(Thunderbolt 5):开放式显卡坞,配雷电5接口

超能网 浏览 225

全国人大代表、58同城董事长姚劲波:上门经济需跨越数字鸿沟

经济观察报 浏览 5482

打开战略空间 中芯国际市值万亿新逻辑

21世纪经济报道 浏览 1944
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4