攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

作者：時間：2024-07-31 來源：IT之家

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

IT之家 7 月 31 日消息，Meta 公司上周在發(fā)布 Llama 3.1 AI 模型的同時，還發(fā)布了 Prompt-Guard-86M 模型，主要幫助開發(fā)人員檢測并響應(yīng)提示詞注入和越獄輸入。

本文引用地址：http://www.biyoush.com/article/202407/461541.htm

IT之家在這里簡要補(bǔ)充下背景知識：

提示詞注入（prompt injection）：將惡意或非預(yù)期內(nèi)容添加到提示中，以劫持語言模型的輸出。提示泄露和越獄實際上是這種攻擊的子集；
提示詞越獄（prompt jailbreaks）：繞過安全和審查功能。

不過根據(jù)科技媒體 theregister 報道，這個防止 AI 提示詞注入和越獄的模型，本身也存在漏洞，用戶只需要通過空格鍵就能繞過 Meta 的 AI 安全系統(tǒng)。

企業(yè)人工智能應(yīng)用安全商店 Robust Intelligence 的漏洞獵人阿曼?普里揚(yáng)舒（Aman Priyanshu）分析 Meta 的 Prompt-Guard-86M 模型與微軟的基礎(chǔ)模型 microsoft / mdeberta-v3-base 之間的嵌入權(quán)重差異時，發(fā)現(xiàn)了這種安全繞過機(jī)制。

用戶只需要在字母之間添加空格并省略標(biāo)點符號，就可以要求 Meta 的 Prompt-Guard-86M 分類器模型“忽略之前的指令”。

Priyanshu 在周四提交給 Prompt-Guard repo 的 GitHub Issues 帖子中解釋說：