关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro404人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“过年红”就这么穿,真不俗!

Yuki女人故事 浏览 248

能否加量不加价?全新深蓝S07亮相成都车展

网易汽车 浏览 479

陈道明说的没错,不拍戏就消失的欧豪,已经走上了另外一条道路

豆哥记录 浏览 285

“石墨烯云绒”保暖媲美羽绒?专家:远达不到

看看新闻Knews 浏览 337

本科毕业生为了一份更好工作回炉技校 入学一年后退学

南风窗 浏览 514

《向往》收视回暖!黄磊动手做饭,明星干农活

萌神木木 浏览 384

央视王炸定档!1月13日50集历史大剧开播

观察鉴娱 浏览 280

朝鲜进行地对地战术弹道导弹试射 金正恩观摩

国际在线 浏览 99

10倍压缩率,97%解码精度!DeepSeek开源新模型,为何赢得海内外关注

澎湃新闻 浏览 369

报道称美方将启动关键矿产储备计划 中方回应

财联社 浏览 215

59天后的春晚,她必是焦点

Yuki女人故事 浏览 286

国羽汤杯与印度队争小组第一:石宇奇休战,李诗沣任一单

懂球帝 浏览 75

初秋“不露腿”也能穿得美:裤选长、裙及踝,优雅得体又应季

静儿时尚达人 浏览 380

直击现场!看东部战区演习高燃瞬间

环球网资讯 浏览 249

美媒称沙特强烈游说特朗普对伊朗动手 沙特坚决否认

环球时报国际 浏览 171

从北京到平壤的火车线路被指将于周四开通 外交部回应

外交部网站 浏览 165

媒体人:特奎维恩-史密斯加盟深圳男篮 上赛季曾短暂效力于江苏

直播吧 浏览 444

浙商银行前三季度经营稳健,总营收489.31亿元

证券市场周刊 浏览 1258

《阿嬷》票房破10亿只是开始,吴京、沈腾、谢霆锋要掀起新高潮了

皮皮电影 浏览 30

比亚迪仰望 U8L 内饰亮相:轴距 3250mm 三排布局,下半年上市

IT之家 浏览 595

魅族Flyme Auto新增生态用户数在11月首次突破20万

IT之家 浏览 270
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4