Уязвимость Role Confusion в LLM позволяет красть криптоключи через подделку CoT
Сводка рынка от ИИ
Исследование ICML описывает prompt-инъекцию "Chain-of-Thought Forgery", которая использует путаницу ролей LLM для обхода защитных механизмов и эксфильтрации секретов (например, SECRETS.env) из кодинговых агентов. Для криптокомпаний, использующих агентов в CI/CD, операциях с кошельками и управлении ключами, это повышает краткосрочные операционные и безопасностьные риски, увеличивая воспринимаемую вероятность утечки учетных данных, компрометации цепочки поставок и несанкционированных транзакций. Новость может оказывать давление на настроения в отношении криптоинфраструктуры и зависимости от инструментов.
Степень влияния
● Средний
Затронутые активы
BTC/USDT+0.35%
Инсайт ИИ · BTC/USDTИнсайт ИИ
▼ Медвежий
Торговать
⚠️ Инсайты, сгенерированные ИИ, основаны на новостном контенте и предоставляются исключительно в информационных целях. Они не являются инвестиционной рекомендацией и не отражают позицию BingX. Торговля сопряжена с риском. Пожалуйста, торгуйте ответственно.
Исследователи описали простой способ заставить продвинутые чат-боты выполнять опасные и вредоносные действия — с неприятными последствиями для криптоплатформ и инструментов разработчиков. В докладе, представленном на ICML в июне, "Prompt Injection as Role Confusion" Чарльз Йе (Charles Ye), Джасмин Цуй (Jasmine Cui) и Дилан Хэдфилд-Менелл (Dylan HadfieldMenell) показывают: из-за структурной слабости в том, как большие языковые модели (LLM) отделяют доверенные инструкции от недоверенного текста, можно обходить защитные фильтры. Если внедрённый фрагмент оформить как "внутренние рассуждения" модели, она начинает воспринимать его как авторитетный сигнал и следует вредоносным указаниям — вплоть до пошагового описания синтеза кокаина — а также может быть вынуждена через агентные сценарии генерации кода раскрывать секретные файлы.
Как работает метод
Авторы называют технику Chain-of-Thought (CoT) Forgery — "подделка цепочки рассуждений". Вместо прямолинейного джейлбрейк-промпта злоумышленник внедряет текст, который стилистически имитирует внутренний блок "think". Поскольку LLM склонны считать собственные предыдущие рассуждения доверенными, фальшивое "мышление" получает неявный кредит доверия.
Корневая причина — "role confusion" ("путаница ролей"): модели нередко ориентируются на стиль и форматирование, а не на жёсткие метки ролей, чтобы решить, где пользовательские инструкции, где рассуждения модели, а где внешний контент. Если внедрённый фрагмент похож на "мысли" модели, она может принять его за собственные выводы и выполнить автоматически.
Результаты тестов
По данным авторов, метод резко повышает успешность джейлбрейка: атаки, которые раньше почти всегда проваливались, в среднем выходили примерно на 60% успеха на протестированных моделях. В перечень затронутых вошли семейство GPT-5 от OpenAI (nano, mini, full), o4-mini, gpt-oss-20b и gpt-oss-120b, а также GLM-4.6, Kimi-K2-Instruct и MiniMax-M2.
В отдельном эксперименте вредоносные инструкции спрятали на веб-странице так, что агент для написания кода загрузил файл SECRETS.env — наглядная демонстрация того, как контент из интернета может использоваться для вывода учётных данных и другой чувствительной информации. Отдельно отмечено: простая маркировка внедрённого текста меткой "User" повышала вероятность того, что модель воспримет его как реальные пользовательские команды.
Почему это критично для криптоиндустрии
Криптоплатформы и команды разработки всё чаще полагаются на автоматизированных агентов при деплое, создании кошельков, управлении ключами и в CI/CD-контурах, где хранятся API-ключи и приватные креденшелы. Модель, которую можно убедить трактовать атакующий контент как собственное рассуждение или как команды пользователя, создаёт прямой риск утечки секретов и компрометации цепочки поставок.
Демонстрация с SECRETS.env особенно показательна: переменные окружения часто содержат API-ключи, доступы к нодам и приватные ключи, что в случае утечки может привести к выводу средств, несанкционированным транзакциям или компрометации деплоя смарт-контрактов.
Контекст: это не единичный сигнал
Работа выходит на фоне череды уязвимостей prompt-injection. В апреле исследователи Google описали вредоносные веб-страницы, скрывающие невидимые инструкции и подталкивающие агентов к утечке секретов или к действиям вроде отправки платежей. В июне Microsoft раскрыла риск prompt-injection в GitHub Action Anthropic Claude Code, способный раскрывать секреты пайплайна. Дополнительные бенчмарки показывают, что даже агенты на базе GPT-5 и Gemini по-прежнему проваливают значимую долю тестов на prompt-injection.
Вывод
Исследование указывает на архитектурную "слепую зону": LLM недостаточно надёжно отделяют собственные рассуждения от внешних входов, а доверие к "внутренним мыслям" можно перехватить. Для крипторынка, где секреты и автоматизация — основа операционной модели, это означает необходимость срочно укреплять дизайн агентных систем, жёстче разделять рассуждения модели и внешние данные, а также усиливать runtime-защиту от эксфильтрации учётных данных.
Если вы управляете криптоинфраструктурой или строите агентные процессы для разработки, вывод практический: проверьте, где модели могут подтягивать веб-контент или получать доступ к файлам окружения, и исходите из того, что внедрённый текст будет пытаться маскироваться под "доверенный" вывод модели.