Вразливість Role Confusion у LLM дозволяє викрадати криптоключі через підробку CoT
Ринкове зведення ШІ
Дослідження ICML описує "підробку ланцюжка міркувань" (Chain-of-Thought Forgery) — prompt injection, що експлуатує плутанину ролей LLM, аби обійти захисні механізми та ексфільтрувати секрети (наприклад, SECRETS.env) з агентів для кодування. Для криптофірм, які використовують агентів у CI/CD, операціях з гаманцями та управлінні ключами, це підвищує короткостроковий операційний і безпековий ризик, збільшуючи сприйняту ймовірність витоку облікових даних, компрометації ланцюга постачання та несанкціонованих транзакцій. Новина може тиснути на настрої щодо криптоінфраструктури та залежності від інструментарію.
Рівень впливу
● Середній
Активи, яких стосується
BTC/USDT+0.37%
Інсайт ШІ · BTC/USDTІнсайт ШІ
▼ Ведмежий
Торгувати
⚠️ Інсайти, згенеровані ШІ, ґрунтуються на новинних матеріалах і надаються виключно з інформаційною метою. Вони не є інвестиційною порадою та не відображають поглядів BingX. Інвестування пов’язане з ризиком. Будь ласка, торгуйте відповідально.
Дослідники описали напрочуд простий спосіб змусити просунуті чатботи виконувати небезпечні дії та розкривати конфіденційні дані — і для криптоплатформ та інструментів розробки це виглядає як серйозний сигнал тривоги. У доповіді, представленій на ICML у червні, "Prompt Injection as Role Confusion" Чарльз Є (Charles Ye), Жасмін Цуй (Jasmine Cui) та Ділан Хедфілд-Менелл (Dylan HadfieldMenell) показують: структурна слабкість у тому, як великі мовні моделі (LLM) відділяють довірені інструкції від недовіреного тексту, може використовуватися для обходу фільтрів безпеки. Якщо підмішаний текст замаскувати під внутрішні міркування моделі, LLM частіше приймає його за власні "думки" і виконує шкідливі вказівки — аж до покрокових інструкцій із синтезу кокаїну — або підштовхує агентів, що пишуть код, до витоку секретних файлів.
Як працює "підробка" ланцюжка міркувань
Автори називають техніку Chain-of-Thought (CoT) Forgery. Замість прямолінійного джейлбрейк-промпта зловмисник формує ін'єкцію так, щоб вона стилістично нагадувала внутрішній текст "think", який модель використовує для міркувань. Оскільки LLM схильні сприймати власні попередні міркування як довірений сигнал, фальшивий фрагмент отримує неявний кредит довіри.
Корінь проблеми автори визначають як "role confusion" ("плутанина ролей"). Моделі нерідко орієнтуються на стиль написання, а не на явні мітки ролей, щоб вирішити, де інструкції користувача, де міркування моделі, а де зовнішній контент. Якщо ін'єкція схожа на попередні "думки" моделі, вона може сприйняти її як власний висновок і автоматично діяти відповідно.
Результати тестів
За даними роботи, метод різко підвищив успішність джейлбрейків: атаки, які раніше майже завжди провалювалися, підстрибували приблизно до 60% успіху на перевірених моделях. Серед уражених — сімейство OpenAI GPT-5 (nano, mini, full), o4-mini, gpt-oss-20b і gpt-oss-120b, а також GLM-4.6, KimiK2-Instruct і MiniMax-M2.
В окремому експерименті дослідники сховали шкідливі інструкції на вебсторінці так, що агент для написання коду завантажив файл SECRETS.env. Це демонструє, як вебконтент може використовуватися для ексфільтрації облікових даних та іншої чутливої інформації. Також зазначено: просте маркування ін'єкції як "User" підвищувало ймовірність, що модель сприйме її як справжній ввід користувача.
Чому це критично для криптосектора
Криптоплатформи й команди розробки активно покладаються на автоматизованих агентів у розгортаннях, створенні гаманців, керуванні ключами та CI/CD-пайплайнах, де зберігаються API-ключі й приватні облікові дані. Модель, яку можна змусити трактувати контент під контролем атакувальника як власні міркування або як команди користувача, створює прямий ризик витоку секретів і компрометації ланцюга постачання.
Демонстрація з SECRETS.env тут особливо показова: витоки файлів середовища часто містять API-ключі, доступи до нод, приватні ключі та інші секрети, які здатні призвести до виведення коштів, несанкціонованих транзакцій або компрометованих деплоїв смартконтрактів.
Контекст: це не поодинокий сигнал
Робота виходить на тлі потоку вразливостей prompt-injection. У квітні дослідники Google попереджали про шкідливі вебсторінки з невидимими інструкціями, які підбурюють агентів зливати облікові дані або виконувати дії на кшталт надсилання платежів. У червні Microsoft розкрила ризик prompt-injection в Anthropic's Claude Code GitHub Action, що могло призводити до витоку секретів пайплайнів. Подальші бенчмарки показують, що навіть агенти на базі GPT-5 і Gemini все ще провалюють значну частину тестів на prompt-injection.
Підсумок
Дослідження вказує на архітектурну сліпу зону: LLM не вміють надійно відмежовувати власні міркування від зовнішніх входів, а довіра до "внутрішніх думок" може бути перехоплена. Для крипторинку, де секрети та автоматизовані інструменти — основа операцій, висновок очевидний: потрібні посилені дизайни агентів, жорсткіше розділення між міркуванням моделі та зовнішніми даними, а також кращі runtime-запобіжники проти ексфільтрації облікових даних.
Якщо ви керуєте криптоінфраструктурою або будуєте агент-орієнтовані процеси для розробників, це практичний "червоний прапорець": перевірте, де моделі можуть підтягувати вебконтент або мати доступ до файлів середовища, і виходьте з того, що ін'єкції намагатимуться маскуватися під "довірений" вихід самої моделі.