Vulnerabilità "Role Confusion" negli LLM: chiavi crypto esposte tramite falsificazione della Chain-of-Thought
Riepilogo di mercato AI
Una ricerca dell'ICML descrive una prompt injection di "Chain-of-Thought Forgery" che sfrutta la confusione dei ruoli degli LLM per aggirare le salvaguardie ed esfiltrare segreti (ad es., SECRETS.env) dagli agenti di coding. Per le società crypto che utilizzano agenti in CI/CD, operazioni sui wallet e gestione delle chiavi, questo aumenta il rischio operativo e di sicurezza nel breve termine, incrementando la probabilità percepita di fuoriuscita di credenziali, compromissione della supply chain e transazioni non autorizzate. La notizia può mettere sotto pressione il sentiment verso l'infrastruttura crypto e la dipendenza dagli strumenti e dal tooling.
Livello dell'impatto
● Medium
Asset interessati
BTC/USDT+1.35%
Approfondimenti AI · BTC/USDTApprofondimenti AI
▼ Ribassista
Fai subito trading
⚠️ Le analisi generate dall'AI si basano sui contenuti delle notizie e sono forniti esclusivamente a scopo informativo. Non costituiscono consulenza in materia di investimenti né rappresentano le opinioni di BingX. Investire comporta rischi. Fai trading in modo responsabile.
Un nuovo studio presentato a giugno all'ICML mette in luce un modo sorprendentemente semplice per indurre chatbot avanzati a ignorare i filtri di sicurezza e a compiere azioni rischiose, con conseguenze potenzialmente gravi per piattaforme crypto e strumenti per sviluppatori. Nel paper "Prompt Injection as Role Confusion", Charles Ye, Jasmine Cui e Dylan Hadfield-Menell descrivono una debolezza strutturale: molti large language model (LLM) non separano in modo robusto istruzioni affidabili e testo non affidabile, aprendo la strada a prompt injection che sembrano provenire dal modello stesso.
Il meccanismo chiave, definito dai ricercatori Chain-of-Thought (CoT) Forgery, non usa un jailbreak esplicito. L'attaccante inserisce contenuti che imitano lo stile del testo interno di ragionamento ("think"). Poiché gli LLM tendono a considerare il proprio ragionamento precedente come un segnale attendibile, un ragionamento finto ottiene credibilità implicita e può spingere il sistema ad accettare e seguire istruzioni malevole, dalla generazione di procedure pericolose fino alla manipolazione di agenti di coding per far trapelare file riservati.
Alla base c'è quella che gli autori chiamano "role confusion": invece di basarsi su tag di ruolo espliciti, molti modelli deducono se un testo sia istruzione utente, ragionamento del modello o contenuto esterno in base allo stile di scrittura. Se l'iniezione assomiglia ai "pensieri" del modello, l'LLM può scambiarla per una propria conclusione e metterla in pratica.
Nei test, la tecnica ha aumentato in modo marcato i tassi di successo dei jailbreak: attacchi che prima fallivano quasi sempre sono arrivati a circa il 60% di successo sui modelli valutati. Tra quelli indicati: la famiglia GPT5 di OpenAI (nano, mini, full), o4-mini, gpt-oss-20b e gpt-oss-120b, oltre a GLM-4.6, Kimi K2 Instruct e MiniMax M2.
In un esperimento separato, i ricercatori hanno nascosto istruzioni dannose in una pagina web, inducendo un agente di programmazione basato su AI a caricare un file SECRETS.env. La dimostrazione evidenzia come contenuti recuperati dal web possano essere sfruttati per esfiltrare credenziali e altri dati sensibili. È emerso anche che una semplice etichetta come "User" applicata al testo iniettato aumenta la probabilità che il modello lo tratti come input autentico.
Implicazioni per il settore crypto
Le piattaforme crypto e i team di sviluppo fanno sempre più affidamento su agenti automatizzati per deployment, creazione di wallet, gestione delle chiavi e pipeline CI/CD che conservano API key e credenziali private. Se un modello può essere ingannato e portato a trattare contenuti controllati da un attaccante come ragionamento interno o comandi utente, il rischio di fuga di credenziali e compromissione della supply chain diventa concreto.
La prova con SECRETS.env è particolarmente rilevante: i file di ambiente contengono spesso API key, credenziali di nodi e chiavi private. La loro esposizione può tradursi in drenaggio di fondi, transazioni non autorizzate o deployment di smart contract compromessi.
Non è un caso isolato
Il paper si inserisce in una serie di allarmi sulla prompt injection. Ad aprile, ricercatori Google hanno segnalato pagine malevole con istruzioni invisibili in grado di spingere agenti a rivelare credenziali o a compiere azioni come l'invio di pagamenti. A giugno, Microsoft ha divulgato un rischio di prompt injection nella GitHub Action Claude Code di Anthropic, con potenziale esposizione dei segreti di pipeline. Benchmark successivi indicano che agenti alimentati da GPT-5 e Gemini continuano a fallire numerosi test di prompt injection.
In sintesi
Lo studio punta il dito su un punto cieco architetturale: gli LLM non distinguono in modo affidabile il proprio ragionamento dagli input esterni e la fiducia nei "pensieri" interni può essere dirottata. Per il mondo crypto, dove segreti operativi e automazione sono centrali, il messaggio è chiaro: servono design di agenti più robusti, separazione più rigorosa tra ragionamento del modello e dati esterni, e controlli runtime più efficaci per bloccare l'esfiltrazione di credenziali.
Per chi gestisce infrastrutture crypto o costruisce workflow di sviluppo guidati da agenti, la raccomandazione pratica è una: verificare dove i modelli possono recuperare contenuti web o accedere a file di ambiente e assumere che testo iniettato possa tentare di mascherarsi da output "fidato" del modello.