🔁🖼 20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现 1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节:只需要两个...
Forwarded From 🆕 科技新闻投稿📮TestFlight
20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现
1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节:只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。
听说曾经红极一时的“奶奶漏洞”已经被修复了。那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?证据表明,一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。
研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。成功率可达60-100%,拿下新SOTA。
来源:https://m.weibo.cn/status/Nr9jy5eU8?jumpfrom=weibocom
投稿:@ZaiHuaBot
频道:@TestFlightCN
双11必看省钱攻略
via MJJ出征 - Telegram Channel
Forwarded From 🆕 科技新闻投稿📮TestFlight
20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现
1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节:只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。
听说曾经红极一时的“奶奶漏洞”已经被修复了。那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?证据表明,一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。
研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。成功率可达60-100%,拿下新SOTA。
来源:https://m.weibo.cn/status/Nr9jy5eU8?jumpfrom=weibocom
投稿:@ZaiHuaBot
频道:@TestFlightCN
双11必看省钱攻略
via MJJ出征 - Telegram Channel