关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro0人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

米尔纳:我看到若塔做过那个庆祝动作,我可能模仿得不太好

懂球帝 浏览 117

普京:参军大学生将成真正国家精英

参考消息 浏览 4256

网友曝腾讯视频半夜跳转恐怖片,亲历网友:瞬间头皮发麻

Tech星球 浏览 11784

芬奇谈输球:我认为大家获得了一些不错的机会 但可能打得着急了

直播吧 浏览 4384

德国出台首份国家安全战略 称中国仍然是一个合作伙伴

环球网资讯 浏览 43563

豪华同源“真国产卫士”,奇瑞风云X3L到底有多牛

车知事 浏览 123

阿尔巴赛后发文:争取赢下决赛!

直播吧 浏览 6015

广东此前买了优先续约权!经纪公司宣:麦考尔加盟广东男篮

直播吧 浏览 49

能否复刻N7的成功?日产N6申报图现身

Nice好车 浏览 1

4000亿营收背后低调的青山控股

北京商报 浏览 871

全新设计语言/展车3月到店 领克07 EM-P全球首秀

网易汽车 浏览 3847

林青霞接种国产新冠疫苗:感觉良好没什么反应

趣看热点 浏览 17352

郑永刚遗孀起诉郑驹 公司过半股权被冻结

清流 浏览 10900

《神雕侠侣》曝预告:罗嘉良陈紫函演郭靖黄蓉,杨过小龙女太路人

不八卦会死星人 浏览 4388

传华为将出售手机业务?官方辟谣:假信息,继续加大投入

网易手机 浏览 11281

大陆启动贸易壁垒调查后通过WTO通知 台方称超乎预期

环球网资讯 浏览 75422

AIGC领域最大收购:Databricks 13亿美元买下MosaicML

硅星人 浏览 6919

晒"妈妈牌"耐克书包男子已收到耐克礼物 当事人发声

极目新闻 浏览 56

货车司机路边买2个西瓜忘付钱 往返15公里送还19.5元

极目新闻 浏览 92

一滴水循环使用3.5次,台积电回应南科厂水情吃紧:营运未受影响

IT之家 浏览 10783

刚刚,工行、中行、建行同时官宣!

中国基金报 浏览 12066
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4