关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro403人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

人民银行连续第九个月加量续作MLF

北京商报 浏览 2295

上海AI判定停车费被指掐秒算钱:让人下车停12秒收4元

潇湘晨报 浏览 538

李小龙妻子琳达晚年透露:丈夫其实很怕一种对手

南书房 浏览 306

郎酒9月发布的会员尊享酒,为何成懂酒人的优选?

金角财经 浏览 1406

Petal One 尊享套餐用户可参与,华为 Mate XTs 发布会开启报名

IT之家 浏览 513

负债数亿,足力健卖食品要开20000家店

中国企业家杂志 浏览 1227

原来甄子丹还有个大儿子,都已经31岁了

上官晚安 浏览 253

曝杨威与儿子失联!杨阳洋父母情绪崩溃

有趣的胡侃 浏览 343

鲁尼:恩里克是顶级教头,5-2领先还在大举压上争取更多进球

懂球帝 浏览 89

29岁国乒老将临危受命?淘汰黄友政状态回暖 锁世界杯后冲世乒赛

颜小白的篮球梦 浏览 162

能否延续?热刺连续11个赛季晋级足总杯第四轮

懂球帝 浏览 276

厚外套+半裙=今冬绝美穿搭,巨洋气巨显瘦!

Yuki女人故事 浏览 360

挑战破译RNA生命“天书”,全球高校迎战ASC25超算大赛

环球网资讯 浏览 726

全球首个执行型AI助手,国产智能体AutoGLM发布,面向公众全面开放

网易科技报道 浏览 512

未来智能完成亿元级A轮融资,蚂蚁集团领投、启明创投超额跟投

雷科技 浏览 381

越野车配置也够全 全新坦克500智享版预售36万起

明镜pro 浏览 519

伊朗伊斯兰革命卫队:击落一架美军搜救飞机

财联社 浏览 84

“这件羽绒服”今年冬天又火了,怎么搭都时髦保暖!

LinkFashion 浏览 320

AI泡沫争议再起!多位顶尖大咖PK,这次有何不同?

21世纪经济报道 浏览 343

特朗普政府38页"重建加沙"计划披露:将建成旅游胜地

红星新闻 浏览 486

海南“半价豪车”真相:代购违规,15年强制报废还得补缴巨款

国际金融报 浏览 5358
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4