关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro400人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以称打死两名越过加沙地带“黄线”人员

环球网资讯 浏览 359

或命名为AMG GT SUV AMG纯电SUV谍照曝光

车质网 浏览 339

曾毅手表事件休整后首次露面,发布新团队全家福

迷迭香的记忆a 浏览 279

追觅官宣造车,首款车型剑指布加迪

汽车公社 浏览 451

一句话点评9月纯电车型:小米YU7反超SU7,下一步追赶Model Y?

汽车公社 浏览 388

零百加速1.8s 星空计划首款车型将亮相CES

车质网 浏览 266

沃尔科特:利物浦近几场总最后时刻丢球,埃泽先替补是聪明的决定

直播吧 浏览 469

詹俊:阿莫林换人值得肯定,冬窗应该留下齐尔克泽

懂球帝 浏览 230

《叵测》中刘烨、聂远上演教科书级正邪对弈

晴晴的娱乐日记 浏览 124

伊朗外长:伊朗给美国人"准备了许多惊喜"

界面新闻 浏览 168

女人不管年纪多大,衣柜里都要准备几件衬衫,百搭耐穿又简约

静儿时尚达人 浏览 77

2025羽绒服8大流行趋势,温暖时髦过冬天!

LinkFashion 浏览 353

集齐产业、PE/VC与央企国资!曦望披露近30亿元新融资细节

21世纪经济报道 浏览 252

美印友谊的中流砥柱被FBI大张旗鼓拘捕 被控"串通中国"

澎湃新闻 浏览 348

冯仑:兄弟管公司,女朋友管章子,「江湖人」的企业往往都死得快

冯仑风马牛 浏览 758

这瓜是越来越奇葩了…

麻辣婊 浏览 739

高通AI研究团队让图像生成快1.7倍

科技行者 浏览 291

女星陈匡怡怒斥台媒毁人名节,自曝写了遗书,拒绝富商追求遭抹黑

萌神木木 浏览 283

新款阿维塔12实车首曝光 华为靳玉志评其脱胎换骨

网易汽车 浏览 218

王千源16岁女儿近照曝光!父女俩现身F1

老黯谈娱 浏览 149

集微咨询发布《2025中国半导体后道设备行业上市公司研究报告》

爱集微 浏览 325
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4