LLM「角色混淆」漏洞可偽造CoT推理外洩加密貨幣私鑰

AI 市場總結

ICML 研究描述一種名為 \u0022Chain-of-Thought Forgery\u0022 的 prompt injection，利用 LLM 角色混淆以繞過防護措施，並從編碼代理外洩機密（例如 SECRETS.env）。對於在 CI/CD、錢包操作及金鑰管理中使用代理的加密貨幣公司而言，這帶來短期營運及安全風險，並提高對憑證外洩、供應鏈受破壞及未經授權交易的主觀概率。該消息可能對加密貨幣基礎設施及工具依賴的情緒構成壓力。

影響等級

● 中

主要受影響標的

BTC/USDT+0.37%

AI 觀點 · BTC/USDTAI 觀點

▼ 看空

立即交易

⚠️ AI觀點僅為演算法基於新聞內容的自動生成分析，不構成投資建議，不代表BingX立場。市場有風險，投資需謹慎。

研究人員發現一種出奇簡單的方法，可誘使先進聊天機械人做出危險且具破壞性的行為，對加密貨幣平台及開發者工具的風險尤其值得關注。Charles Ye、Jasmine Cui 與 Dylan HadfieldMenell 於6月在 ICML 發表論文《Prompt Injection as Role Confusion》，指出大型語言模型（LLM）在區分「可信指令」與「不可信文字」方面存在結構性弱點，攻擊者可藉此繞過安全過濾。論文顯示，若把注入內容包裝成模型自身的內部推理文字，模型便可能把惡意指令當成「自己得出的結論」而照做；不但可引導輸出例如逐步可卡因合成等違規內容，亦可操控寫碼代理（coding agent）洩露機密檔案。這種手法被研究團隊稱為「Chain-of-Thought（CoT）偽造」。與傳統粗暴式越獄提示不同，攻擊者會刻意仿造模型的「think」風格，把惡意指令寫成看似延續前文推理的內容。由於 LLM 往往把先前推理視作可信訊號，偽造推理會自帶「可信度加成」。作者將根因概括為「角色混淆」：不少 LLM 判斷一段文字屬於用戶指令、模型推理或外部內容時，常依賴寫作風格而非明確角色標籤。一旦注入內容在形式上像模型的既有思路，模型便可能誤判為自身推理並自動跟隨。實驗結果顯示，CoT 偽造可顯著提高越獄成功率：原本幾乎必定失敗的攻擊，在受測模型上成功率可躍升至約60%。受影響的模型包括 OpenAI 的 GPT-5 系列（nano、mini、full）、o4-mini、gpt-oss-20b、gpt-oss-120b，以及 GLM-4.6、Kimi-K2-Instruct、MiniMax-M2。另一組實驗則把惡意指令藏在網頁內容中，令一個 AI 寫碼代理上傳 SECRETS.env 檔案，展示以網頁來源內容（web-sourced content）外洩憑證與敏感資料的可行性。研究亦指出，只要把注入文字標示為「User」，模型更傾向把它當成真實用戶輸入。對加密貨幣行業而言，風險更為直接。平台與開發團隊大量依賴自動化代理處理部署、錢包建立、金鑰管理，以及存放 API keys 與私密憑證的 CI/CD 流程。一旦模型可被誘導把攻擊者控制的內容視為自身推理或用戶命令，便可能導致憑證外洩與供應鏈被入侵。 SECRETS.env 的示範尤具代表性：環境檔案常包含 API keys、節點登入資料與私鑰，一旦洩漏，可能引發資金被抽走、未經授權交易，甚至合約部署流程遭挾持。該研究亦並非孤例。近期提示注入（prompt injection）漏洞持續被揭示：4月 Google 研究人員提出惡意網頁可藏入不可見指令，誘導代理外洩憑證或執行付款等操作；6月 Microsoft 披露 Anthropic 的 Claude Code GitHub Action 存在提示注入風險，或會暴露流水線機密；後續基準測試亦顯示，即使是 GPT-5 與 Gemini 驅動的代理，仍在多項提示注入測試中表現欠佳。整體而言，論文凸顯一個核心盲點：LLM 未能穩健地把自身推理與外部輸入徹底分隔，而對「內部思考」的信任可被劫持。對以祕密資料與自動化工具為核心的加密貨幣領域，這些發現提示必須加快強化代理設計、嚴格切割模型推理與外部資料的邊界，並加入更強的執行時防護以阻止憑證外洩。若你負責加密基礎設施或建構以代理驅動的開發工作流，這項研究屬於務實的風險警號：應盤點模型可抓取網頁內容或讀取環境檔案的位置，並假設注入文字隨時會偽裝成「可信」的模型輸出。

免責宣告：以上所有內容均來源於第三方意見，不代表BingX的任何立場，不構成財務建議，詳細見《條件說明》