✈️ Gate 廣場【Gate Travel 旅行分享官召集令】
廣場家人們注意啦!Gate Travel 已經上線~ 機票+酒店一站式預訂,還能用加密貨幣直接付款 💸
所以說,你的錢包和你的旅行夢終於可以談戀愛了 😎 💕
現在廣場開啓 #GateTravel旅行分享官# 活動,邀你來秀旅行靈感 & 使用體驗!💡
🌴 參與方式:
1️⃣ 在【廣場】帶話題 #Gate Travel 旅行分享官# 發帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小島 or 網紅打卡點都行)
講講用 Gate Travel 訂票/訂酒店的奇妙體驗
放放省錢/使用攻略,讓大家省到笑出聲
或者直接寫一篇輕鬆的 Gate Travel 旅行小故事
📦 獎勵安排,走起:
🏆 優秀分享官(1 名):Gate 旅行露營套裝
🎖️ 熱門分享官(3 名):Gate 旅行速乾套裝
🎉 幸運參與獎(5 名):Gate 國際米蘭旅行小夜燈
*海外用戶 旅行露營套裝 以 $100 合約體驗券,旅行速乾套裝 以 $50 合約體驗券折算,國際米蘭旅行小夜燈以 $30合約體驗券折算。
📌 優質內容將有機會得到官方帳號轉發翻牌提升社區曝光!
📌 帖文將綜合互動量、內容豐富度和創意評分。禁止小號刷貼,原創分享更容易脫穎而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
ChatGPT被「神秘代碼」攻破安全限制!毀滅人類步驟脫口而出,羊駝和Claude無一倖免
來源:量子位
大模型的「護城河」,再次被攻破。
輸入一段神秘代碼,就能讓大模型生成有害內容。
從ChatGPT、Claude到開源的羊駝家族,無一倖免。
他們甚至做出了一套可以量身設計「攻擊提示詞」的算法。
論文作者還表示,這一問題「沒有明顯的解決方案」。
目前,團隊已經將研究結果分享給了包括OpenAI、Anthropic和Google等在內的大模型廠商。
上述三方均回應稱已經關注到這一現象並將持續改進,對團隊的工作表示了感謝。
常見大模型全軍覆沒
儘管各種大模型的安全機制不盡相同,甚至有一些並未公開,但都不同程度被攻破。
比如對於「如何毀滅人類」這一問題,ChatGPT、Bard、Claude和LLaMA-2都給出了自己的方式。
從數據上看,各大廠商的大模型都受到了不同程度的影響,其中以GPT-3.5最為明顯。
以Vicuna-7B和LLaMA-2(7B)為例,在「多種危害行為」的測試中,攻擊成功率均超過80%。
其中對Vicuna的攻擊成功率甚至達到了98%,訓練過程則為100%。
總體上看,研究團隊發明的攻擊方式成功率非常高。
定制化的越獄提示詞
不同於傳統的攻擊方式中的「萬金油」式的提示詞,研究團隊設計了一套算法,專門生成「定制化」的提示詞。
而且這些提示詞也不像傳統方式中的人類語言,它們從人類的角度看往往不知所云,甚至包含亂碼。
然後,GCG會從梯度值較小的幾個替換詞中隨機選取一個,對初始中的token進行替換。
接著是計算新的損失數據,並重複前述步驟,直到損失函數收斂或達到循環次數上限。
以GCG算法為基礎,研究團隊提出了一種優化方式,稱為「基於GCG的檢索」。
防禦方式仍需改進
自大模型誕生之日起,安全機制一直在不斷更新。
一開始甚至可能直接生成敏感內容,到如今常規的語言已經無法騙過大模型。
包括曾經紅極一時的「奶奶漏洞」,如今也已經被修復。
但大模型開發者可能沒想到的是,沒有人規定越獄詞必須得是人話。
所以,針對這種由機器設計的「亂碼」一樣的攻擊詞,大模型以人類語言為出發點設計的防禦方式就顯得捉襟見肘了。
按照論文作者的說法,目前還沒有方法可以防禦這種全新的攻擊方式。
對「機器攻擊」的防禦,該提上日程了。
# 還有一件事
量子位實測發現,在ChatGPT、Bard和Claude中,論文中已經展示過的攻擊提示詞已經失效。
論文地址: 參考鏈接: [1] [2]