Falha de "confusão de papéis" em LLM permite forjar CoT e expor chaves cripto

Resumo de mercado por IA
Pesquisa da ICML descreve uma injeção de prompt de "Falsificação de Chain-of-Thought" que explora a confusão de papéis do LLM para contornar salvaguardas e exfiltrar segredos (por exemplo, SECRETS.env) de agentes de codificação. Para empresas de cripto que usam agentes em CI/CD, operações de wallet e gestão de chaves, isso eleva o risco operacional e de segurança no curto prazo, aumentando a probabilidade percebida de vazamento de credenciais, comprometimento da cadeia de suprimentos e transações não autorizadas. A notícia pode pressionar o sentimento em relação à infraestrutura cripto e à dependência de tooling.
Nível de impacto
● Médio
Ativos afetados
BTC/USDT+0.35%
Insight de IA · BTC/USDTInsight de IA
▼ Baixista
Negociar agora
⚠️ Os insights gerados por IA são baseados em conteúdo de notícias e fornecidos apenas para fins informativos. Eles não constituem aconselhamento de investimento nem representam as opiniões da BingX. Investir envolve riscos. Negocie com responsabilidade.
Pesquisadores identificaram um método simples para induzir chatbots avançados a seguir instruções maliciosas — com consequências diretas para plataformas de cripto e ferramentas de desenvolvimento. Em artigo apresentado na ICML em junho, "Prompt Injection as Role Confusion", Charles Ye, Jasmine Cui e Dylan HadfieldMenell descrevem uma fraqueza estrutural na forma como grandes modelos de linguagem (LLMs) separam instruções confiáveis de texto não confiável. A brecha permite contornar filtros de segurança ao fazer conteúdo injetado parecer o próprio raciocínio interno do modelo. A técnica foi batizada de ChainofThought (CoT) Forgery. Em vez de um jailbreak explícito, o atacante constrói um trecho que imita o texto de "pensamento" do modelo. Como LLMs tendem a tratar seu raciocínio anterior como um sinal confiável, esse "raciocínio falso" ganha credibilidade e pode levar o sistema a aceitar comandos perigosos — do passo a passo de síntese de cocaína à manipulação de agentes de programação para vazar arquivos secretos. Os autores atribuem o problema ao que chamam de "confusão de papéis". Em muitos casos, os modelos se orientam mais pelo estilo de escrita do que por marcações explícitas de função para decidir se um trecho é instrução do usuário, raciocínio do próprio modelo ou conteúdo externo. Se o texto injetado se parece com pensamentos anteriores, o modelo pode interpretá-lo como uma conclusão própria e executá-lo. Nos testes, a abordagem elevou de forma acentuada as taxas de jailbreak: ataques que antes quase sempre falhavam passaram para cerca de 60% de sucesso nos modelos avaliados. Entre os afetados estão a família GPT-5 da OpenAI (nano, mini, full), o4-mini, gpt-oss-20b e gpt-oss-120b, além de GLM-4.6, Kimi-K2-Instruct e MiniMax-M2. Em outro experimento, a equipe ocultou instruções maliciosas em uma página da web e conseguiu que um agente de codificação com IA enviasse um arquivo SECRETS.env, demonstrando como conteúdo obtido online pode ser usado para exfiltrar credenciais e outros dados sensíveis. Eles também observaram que rotular o texto injetado como "User" aumentou a probabilidade de o modelo tratá-lo como entrada legítima do usuário. O risco é particularmente relevante para o setor cripto, onde equipes e plataformas dependem de agentes automatizados para tarefas como deploy, criação de carteiras, gestão de chaves e pipelines de CI/CD que armazenam chaves de API e credenciais privadas. Um modelo induzido a interpretar conteúdo controlado por terceiros como raciocínio próprio ou comando do usuário amplia o risco de vazamento de credenciais e comprometimento da cadeia de suprimentos. A demonstração com SECRETS.env é um alerta direto: arquivos de ambiente frequentemente carregam chaves de API, credenciais de nós e chaves privadas. Um vazamento desse tipo pode viabilizar drenos de fundos, transações não autorizadas ou deploys de contratos comprometidos. O estudo se soma a uma sequência de alertas sobre prompt injection. Em abril, pesquisadores do Google apontaram páginas maliciosas que escondem instruções invisíveis para levar agentes a vazar credenciais ou realizar ações como enviar pagamentos. Em junho, a Microsoft divulgou um risco de prompt injection no Claude Code GitHub Action, da Anthropic, capaz de expor segredos de pipelines. Benchmarks posteriores indicam que agentes com GPT-5 e Gemini ainda falham em muitos testes de resistência a prompt injection. Em síntese, o trabalho evidencia um ponto cego arquitetural: LLMs nem sempre distinguem com robustez raciocínio interno de entradas externas, e essa confiança nos "pensamentos" pode ser sequestrada. Para o ecossistema cripto — altamente dependente de segredos e automação — a recomendação é endurecer o desenho de agentes, separar de forma mais rígida raciocínio do modelo e dados externos, e reforçar proteções em tempo de execução contra exfiltração de credenciais. Para quem opera infraestrutura cripto ou desenvolve fluxos de trabalho baseados em agentes, o recado é prático: audite onde modelos podem buscar conteúdo da web ou acessar arquivos de ambiente e assuma que texto injetado tentará se passar por saída "confiável" do próprio modelo.