关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro235人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

小儿子拜师少林寺 邹市明称3个儿子没有一个子承父业

环球网资讯 浏览 215

知名策略师预警:美股“聪明钱”已离场看戏,找不到值得买的票

财通社 浏览 1298

前海财险困守“C班”,女掌门霍建梅独掌危局?

经理人杂志 浏览 369

《唐朝诡事录3》第一波真实口碑出炉!

娱乐圈笔娱君 浏览 191

媒体:特朗普得寸进尺 墨西哥女总统快扛不住了

澎湃新闻 浏览 302

伦钴突破5万美元关口,出口禁令到期后刚果(金)仍未恢复出口

华尔街见闻官方 浏览 2836

历史二十大网球瞬间(下):费德勒退役,法网立纳达尔雕像!

网球之家 浏览 1

疯狂推新,营收大涨27%!小熊电器“翻身”

侃见财经 浏览 1177

巴黎高定时装周|全世界最美的裙子都在这了

LinkFashion 浏览 461

快手“午夜惊魂”,4亿用户信任一夜崩塌

深蓝财经 浏览 4526

普通人衣服没必要买太多,准备好这些实用的单品,百搭又舒适

静儿时尚达人 浏览 180

冬天别总只穿“羽绒服”,试试这些日常穿搭,简单舒适显身材

静儿时尚达人 浏览 145

中国色特别策划 | 故宫技艺与古意新生

时尚COSMO 浏览 206

E句话 | 她这算内涵吗?

仙女事件簿 浏览 348

特斯拉全球第900万辆电动车在上海超级工厂下线

特斯拉 浏览 91

15款用了就离不开的懒人神器,几块钱就能解放双手!

Yuki女人故事 浏览 392

以部长:已接回人质 必须重启战争打开加沙"地狱之门"

看看新闻Knews 浏览 221

今年冬天最流行搭配:裤子+靴子,高级又时髦!

LinkFashion 浏览 170

特朗普:南非对白人搞"屠杀" G20峰会美国不去了

澎湃新闻 浏览 175

雷军,这次不对劲

创业家 浏览 1117

2026,什么样的企业家还能留在牌桌上?

雪豹财经社 浏览 776
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
闽ICP备16027347号-4