关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro401人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

双星鞋业84岁创始人宣布断绝父子关系:儿子抢公章夺权

红星新闻 浏览 278

中国停购后 美国大豆真"爆仓"了人们四处逃散

澎湃新闻 浏览 376

西部联体育主管被指控未经许可挪用好友资金,给俱乐部修球场

懂球帝 浏览 377

首拍飙至数千万元的“京东第一车”,最低4.54万元就能买到?

都市快报橙柿互动 浏览 364

星空有约|冬夜焰火!双子座流星雨即将迎来极大

新华社 浏览 286

招股书里的MiniMax:当聪明人决定不再为巨头打工

华尔街见闻官方 浏览 284

DeepSeek崩了,官网:正在修复

大象新闻 浏览 68

伊姐周日热推:电视剧《耀眼》;电视剧《校园之外第一季》......

伊周潮流 浏览 29

2026款海狮06EV开启交付 成为全国首批上市闪充纯电车型

太平洋汽车 浏览 150

港元,突然暴涨!

米筐投资 浏览 495

媒体:路透社"爆料"中国建造出极紫外光刻机 充满焦虑

环球网资讯 浏览 295

SRM理工学院发布:文本到视频生成技术演进图谱

科技行者 浏览 367

2026款ICON巧克力"心动紫"上市 限时7.98万起

网易汽车 浏览 335

曼谷偶遇文咏珊,产子三个多月瘦得过分

八怪娱 浏览 263

挥别日上 免税市场洗牌

北京商报 浏览 3962

一场战事 三重短缺冲击全球经济

上观新闻 浏览 85

E句话|说错话,张凌赫ins发文道歉了

仙女事件簿 浏览 183

《寻秦记》成为香港影史首日最高开画票房冠军

皮皮电影 浏览 261

巴西前国脚埃默松-莱昂:内马尔无法成为任何人的榜样

懂球帝 浏览 407

首发搭Momenta最强模型 上汽大众ID.ERA 9X突围9系红海

上海汽车报 浏览 162

计划对菲律宾出口防空导弹 日本危险动作引担忧

上观新闻 浏览 326
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4