新智元报道
编辑:定慧
【新智元导读】OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。
但发布会上搞了一个大乌龙,52.8>69.1=30.8?
于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界(左边)。
新智元报道
编辑:定慧
【新智元导读】OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。
但发布会上搞了一个大乌龙,52.8>69.1=30.8?
于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界(左边)。