关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1063人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

轿车坠河致1家3口遇难 家属:幸存男童也已脑死亡

极目新闻 浏览 76349

英国变异新冠再突变!或将帮助病毒躲避人体免疫系统的攻击

趣看热点 浏览 25689

马斯克向左,黄仁勋向右

汽车公社 浏览 11145

深圳街头偶遇理想MEGA,车友:实车看着不错,车身姿态是真稳!

饭后闲聊会儿车 浏览 12064

吴京在汶川地震时,给灾民搭建帐篷

趣看热点 浏览 26860

710km续航的中大型纯电轿车,只要15.99万元,真香!

快车报 浏览 12161

赵探长:塞尔维亚&波多黎各昨晚均已做适应场地训练 男篮今晚进行

直播吧 浏览 14550

欧盟和美国计划对中国产电动车征收更严厉关税

盖世汽车 浏览 12336

2024年,你多少要了解下“公募REITs”

锦缎研究院 浏览 13033

谢林汉姆:加纳乔非常有天赋,但不确定他能否在蓝军取得成功

懂球帝 浏览 1051

哈马斯称将把加沙地带行政控制权移交临时委员会

环球网资讯 浏览 801

吉利销售:8座MPV月底上市!或卖40万,比理想Mega漂亮多了

网上车市 浏览 12570

能否挑战 19 万美元纪录?罕见4GB未拆封初代苹果iPhone再次拍卖

IT之家 浏览 11526

像虞书欣和欧阳娜娜这样穿真是“泰裤辣”

瑞丽网 浏览 18819

普京批准俄罗斯与古巴军事合作协议

上观新闻 浏览 980

为什么不建议买理想MEGA的大象灰版本?不是花一万块,而是安全性

车有梗 浏览 12157

“五菱宏光家族焕新:燃油、增程、纯电三动力,5.48 万元起

IT之家 浏览 637

中国国防费公开透明合理适度 比上年执行数增长7.2%

国防部发布 浏览 11410

中央军委副主席何卫东和多名军队院士见面

政知新媒体 浏览 12989

"柴怼怼"被逮捕:因"打假"走红后售假 有人消费近10万

澎湃新闻 浏览 5550

39万手封单,“AI大牛股”浪潮信息一字跌停,年内涨幅一度超200%

界面新闻 浏览 15567
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1