Un fallo de "confusión de roles" en LLM permite exfiltrar claves cripto mediante falsificación de CoT

Resumen del mercado generado por IA
La investigación de ICML describe la inyección de prompts "Chain-of-Thought Forgery" que explota la confusión de roles de los LLM para eludir salvaguardas y exfiltrar secretos (p. ej., SECRETS.env) de agentes de programación. Para las empresas cripto que utilizan agentes en CI/CD, operaciones de monedero y gestión de claves, esto eleva el riesgo operativo y de seguridad a corto plazo, aumentando la probabilidad percibida de filtración de credenciales, compromiso de la cadena de suministro y transacciones no autorizadas. La noticia puede presionar el sentimiento hacia la infraestructura cripto y la dependencia de herramientas.
Nivel de impacto
● Media
Activos afectados
BTC/USDT+1.35%
Ideas de IA · BTC/USDTIdeas de IA
▼ Bajista
Haz trading ahora
⚠️ Las ideas generadas por IA se basan en contenido de noticias y se proporcionan solo con fines informativos. No constituyen asesoramiento de inversión ni representan los puntos de vista de BingX. Invertir implica riesgos. Opera de forma responsable.
Investigadores han identificado un método sorprendentemente sencillo para engañar a chatbots avanzados y lograr que ejecuten acciones peligrosas, con implicaciones especialmente preocupantes para plataformas cripto y herramientas de desarrollo. En un trabajo presentado en ICML en junio, "Prompt Injection as Role Confusion", Charles Ye, Jasmine Cui y Dylan HadfieldMenell describen una debilidad estructural en la forma en que los modelos de lenguaje de gran tamaño (LLM) separan instrucciones "de confianza" de texto no confiable. La técnica permite eludir filtros de seguridad haciendo que el texto inyectado se parezca al razonamiento interno del propio modelo. Con ello, los atacantes pueden inducir al sistema a seguir instrucciones maliciosas —incluidas guías paso a paso para sintetizar cocaína— y forzar a agentes de programación a filtrar archivos secretos. Cómo funciona el truco Los autores denominan al enfoque Chain-of-Thought (CoT) Forgery. En lugar de un "jailbreak" directo, el atacante construye contenido inyectado que imita el texto de "pensamiento" interno del modelo. Como muchos LLM tratan su razonamiento previo como una señal fiable, ese razonamiento falso gana credibilidad implícita. El problema de base es la "confusión de roles": los modelos a menudo se apoyan en el estilo de escritura más que en etiquetas explícitas para decidir si un fragmento es una instrucción del usuario, razonamiento del modelo o contenido externo. Si el texto inyectado se parece a pensamientos anteriores, el LLM puede asumir que son conclusiones propias y obedecerlas. Resultados de las pruebas El método elevó de forma notable las tasas de éxito de los "jailbreaks": ataques que antes fallaban casi siempre pasaron a rondar un 60% de éxito en los modelos evaluados. Entre los afectados figuran la familia GPT-5 de OpenAI (nano, mini y full), o4-mini, gpt-oss-20b y gpt-oss-120b, además de GLM-4.6, Kimi-K2-Instruct y MiniMax-M2. En otro experimento, los investigadores ocultaron instrucciones maliciosas en una página web que provocaron que un agente de codificación subiera un archivo SECRETS.env, mostrando cómo contenido obtenido de la web puede utilizarse para exfiltrar credenciales y otros datos sensibles. También observaron que, con solo etiquetar el texto inyectado como "User", aumentaba la probabilidad de que el modelo lo tratara como entrada legítima. Impacto para el sector cripto Las plataformas cripto y los equipos de desarrollo dependen cada vez más de agentes automatizados para despliegues, creación de monederos, gestión de claves y pipelines CI/CD que almacenan claves de API y credenciales privadas. Un modelo que pueda ser inducido a tratar contenido controlado por un atacante como razonamiento propio o como órdenes del usuario eleva el riesgo de fuga de credenciales y de compromisos en la cadena de suministro. La demostración con SECRETS.env es especialmente relevante: los archivos de entorno suelen contener claves de API, credenciales de nodos y claves privadas. Su filtración puede facilitar drenajes de fondos, transacciones no autorizadas o despliegues comprometidos de contratos. No es un caso aislado El estudio se suma a una secuencia constante de vulnerabilidades por inyección de prompts. En abril, investigadores de Google alertaron sobre páginas web maliciosas que esconden instrucciones invisibles para inducir a agentes a filtrar credenciales o ejecutar acciones como enviar pagos. En junio, Microsoft divulgó un riesgo de inyección de prompts en la GitHub Action Claude Code de Anthropic que podía exponer secretos de pipelines. Evaluaciones posteriores indican que agentes basados en GPT-5 y Gemini siguen fallando en numerosas pruebas de resistencia a estas técnicas. Conclusión La investigación pone de relieve un punto ciego de carácter arquitectónico: los LLM no distinguen con solidez su propio razonamiento de las entradas externas, y esa confianza en los "pensamientos internos" puede secuestrarse. Para el ecosistema cripto —donde los secretos y la automatización son críticos—, el mensaje es claro: hace falta reforzar el diseño de agentes, separar de forma más estricta el razonamiento del modelo de los datos externos e incorporar protecciones en tiempo de ejecución para frenar la exfiltración de credenciales. Si administras infraestructura cripto o construyes flujos de trabajo de desarrollo basados en agentes, esta investigación es una señal de alerta práctica: revisa dónde los modelos pueden consumir contenido web o acceder a archivos de entorno y asume que el texto inyectado intentará hacerse pasar por salida "de confianza" del propio modelo.