关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro300人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

爱范儿 浏览 283

高超精打、新型无人机等新型装备将在阅兵首次"亮相"

界面新闻 浏览 411

智能化/舒适化全面升级 欧拉下半年将推两款新车型

网易汽车 浏览 403

阿里腾讯一起投!理想前高管组团做机器人,半年融了20亿

财通社 浏览 3937

博时基金“换帅”

国际金融报 浏览 1017

长春亚泰热身1比0击败定南赣联 球队结构逐步成型

体坛周报 浏览 106

售37.99万起 岚图泰山上市首月完成5000台交付

网易汽车 浏览 165

被家暴16次女子得70%共同财产及10万赔偿 共140万余元

极目新闻 浏览 269

杨鸣:广东三外援轮番冲击让我们顾此失彼;今晚年轻人的表现值得表扬

懂球帝 浏览 181

有望首次入选全明星的球员:湖人里夫斯在列 杨瀚森队友有戏

仰卧撑FTUer 浏览 222

奔驰部分车型指导价下调10%,两大行业组织曾发函:经销商库存过高、价格倒挂严重

红星资本局 浏览 922

被美围绕的一周:上课、逛家、看展

黎贝卡的异想世界 浏览 263

伊朗方面披露美军在伊南部海域兵力布防

新京报 浏览 136

Motif发布12.7B模型:用小算力挑战大模型,效率与性能的"双赢"

科技行者 浏览 152

特朗普向60国发出邀请之际 多国正商量怎么对付美国

新民周刊 浏览 161

韩硕辞职后首战!新疆42分狂胜送四川18连败 齐麟复出11分

醉卧浮生 浏览 163

德媒称冯德莱恩将参选德国总统 欧盟发言人回应

环球时报国际 浏览 397

杨振宁逝世:改变了中国人觉得不如人的心理/库克:苹果AI正努力入华/GPT-5攻克「百年数学难题」遭反转|Hunt Good周报

爱范儿 浏览 260

高市暗藏意图:引入核武器 获取打击中国腹地能力

国际在线 浏览 242

「好想来」与鸣鸣很忙,谁都成不了蜜雪冰城

36氪财经 浏览 1587

委军事基地遭美军打击多座建筑被夷为平地 卫星图披露

环球网资讯 浏览 192
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4