关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro237人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

央视王炸定档!1月13日50集历史大剧开播

观察鉴娱 浏览 94

王牌4年3冠!威尔逊单年包揽MVP+DPOY+FMVP全满贯

体坛周报 浏览 232

抖音:卖茅台低于市场行情价将被处罚

第一财经资讯 浏览 176

鲁比奥宣布任命新任美"西藏特别事务协调员" 中方回应

扬子晚报 浏览 14

男子精神分裂砍死同学的弟弟 第二次精神鉴定结果变了

红星新闻 浏览 79

新一代智己LS6 终结油电之争的“六边形战士”

买车君 浏览 339

衣服基础,穿法就不基础,这个变美思路确实好用

黎贝卡的异想世界 浏览 360

W盛典后台名场面!杨幂主动招呼热巴,倪妮造型夸张刘诗诗偷笑

萌神木木 浏览 335

从百亿到两百亿:董宇辉2025年做对了什么?

字母榜 浏览 1703

赵露思的“邪修”流量

仙女事件簿 浏览 331

日本U20主帅谈战平韩国:想赢下比赛 一个失误足以改变比赛局面

直播吧 浏览 538

大S树葬面临取消,具俊晔反对骨灰树葬,正在为大S寻找安葬墓地

素素娱乐 浏览 558

德国外长在广州表态:看到与中国建设性合作的机会

环球时报国际 浏览 135

EXO见面会遭抵制!官宣12月13日举办,中粉大骂公司要求改期

萌神木木 浏览 207

加拿大馋哭了:中国又从澳方买了油菜籽 一买就是9船

观察者网 浏览 313

天空体育记者:维拉不会在转会截止日带来惊喜

懂球帝 浏览 68

470场,格列兹曼追平科利亚尔并列马竞队史出场榜第5名

懂球帝 浏览 107

高市早苗当选日本首相 成为日本历史上首名女首相

环球网 浏览 214

仅用一周时间,谷歌就让OpenAI认清现实

字母榜 浏览 797

车标比界“少一角”,华为系“境”与“界”差别在哪?

汽扯扒谈 浏览 73

凯恩:若卡尔继续表现出色,他绝对有机会为德国队踢世界杯

懂球帝 浏览 201
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4