关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro96人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

唐玄宗苦恼武则天的烂摊子这人一当宰相瞬间解决问题

趣看热点 浏览 16890

85后腾讯T4“技术大牛”创业,年收5亿冲刺IPO

21世纪经济报道 浏览 192

韩国约2成网吧关门挖比特币,每日收入远高于正常营业水平

趣看热点 浏览 170157

韩国时尚杂志《W,Korea》为活动道歉

悠悠说世界 浏览 91

向太发文否认控制儿媳郭碧婷 喊话会疼爱她一辈子

扒虾侃娱 浏览 5269

这部创造口碑和票房奇迹的悬疑佳作十周年啦

幕味儿 浏览 88

这几位“姐系美人”从体态就开始卷?

ELLE世界时装之苑杂志 浏览 11109

美政府"停摆"破纪录 英伟达市值一夜蒸发1.4万亿元

每日经济新闻 浏览 51

"里根"号航母高调访问岘港之际 越防长却到了中国

环球网资讯 浏览 7135

奥卡福本场比赛数据:1助攻3关键传球17次丢失球权,评分7.2

直播吧 浏览 3586

悬了!仅剩80天!“西北酒王”进入倒计时

壹只灰鸽子 浏览 300

接班?曝泰州远大或更名为"江苏队" 可能迁往南京

直播吧 浏览 17275

初秋穿什么才最适合?准备好以下这些单品,日常穿衣不再发愁

静儿时尚达人 浏览 167

今年秋天最流行的风衣,“短一点”才时髦!

LinkFashion 浏览 61

哈马斯代表团:与以色列间接谈判取得积极进展

国际在线 浏览 77

博主成功拆解苹果 iPhone Air,刮去背板涂层打造“透明版”机型

IT之家 浏览 85

续航380km,全新大众Transporter纯电版谍照曝光

天天汽车 浏览 4160

7月欧洲18国中国汽车品牌销量TOP10揭晓:比亚迪第二

智车情报局 浏览 195

“龙茅”开售!抢到就赚5000元?

中新经纬 浏览 5469

特斯拉 × 百度地图 V20 实测视频公布:支持 3D 车道导航等

IT之家 浏览 2592

俄罗斯核潜艇在北太平洋成功试射超音速巡航导弹

环球网资讯 浏览 184
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4