Celah "Role Confusion" pada LLM Ungkap Kunci Kripto lewat Pemalsuan CoT
Ringkasan Pasar AI
Riset ICML menjelaskan injeksi prompt "Chain-of-Thought Forgery" yang mengeksploitasi kebingungan peran LLM untuk melewati pengaman dan mengekstrak rahasia (mis., SECRETS.env) dari agen coding. Bagi perusahaan kripto yang menggunakan agen dalam CI/CD, operasi dompet, dan manajemen kunci, hal ini meningkatkan risiko operasional dan keamanan dalam jangka dekat, sehingga meningkatkan probabilitas yang dipersepsikan atas kebocoran kredensial, kompromi rantai pasok, dan transaksi tidak sah. Berita ini dapat menekan sentimen terhadap infrastruktur kripto dan ketergantungan pada tooling.
Level dampak
● Sedang
Aset terdampak
BTC/USDT+0.35%
Wawasan AI · BTC/USDTWawasan AI
▼ Bearish
Trade sekarang
⚠️ Wawasan yang dihasilkan AI didasarkan pada konten berita dan disediakan untuk tujuan informasi saja. Wawasan ini bukan nasihat investasi dan tidak mencerminkan pandangan BingX. Investasi melibatkan risiko. Harap trade secara bertanggung jawab.
Peneliti menemukan cara yang terbilang sederhana untuk mengelabui chatbot canggih agar melakukan aksi berbahaya sekaligus merusak. Dampaknya dinilai mengkhawatirkan bagi platform kripto dan perangkat pengembangan. Dalam makalah yang dipresentasikan di ICML pada Juni berjudul "Prompt Injection as Role Confusion", Charles Ye, Jasmine Cui, dan Dylan HadfieldMenell menjelaskan kelemahan struktural pada cara large language model (LLM) membedakan instruksi tepercaya dari teks yang tidak tepercaya. Kelemahan ini dapat dieksploitasi untuk menembus filter keselamatan.
Inti serangannya: penyerang membuat teks sisipan tampak seperti "penalaran internal" model. Dengan menyamar sebagai jejak berpikir model, instruksi berbahaya bisa diterima dan dijalankan, mulai dari permintaan instruksi sintesis kokain langkah demi langkah hingga memanipulasi agen penulis kode agar membocorkan berkas rahasia.
Teknik tersebut diberi nama Chain-of-Thought (CoT) Forgery. Alih-alih menggunakan prompt jailbreak yang terang-terangan, konten injeksi dirancang meniru teks "think" internal. Karena LLM cenderung memperlakukan penalaran sebelumnya sebagai sinyal tepercaya, penalaran palsu ikut memperoleh kredibilitas.
Akar masalahnya disebut penulis sebagai "role confusion". Banyak LLM mengandalkan gaya penulisan, bukan penanda peran (role tag) yang tegas, untuk memutuskan apakah suatu teks merupakan instruksi pengguna, penalaran model, atau konten eksternal. Jika teks injeksi terlihat seperti rangkaian pemikiran model, model bisa mengira itu kesimpulannya sendiri dan menuruti instruksi tersebut secara otomatis.
Dalam pengujian, metode ini meningkatkan tingkat keberhasilan jailbreak secara drastis. Serangan yang sebelumnya hampir selalu gagal melonjak menjadi sekitar 60% tingkat keberhasilan pada model-model yang diuji. Model yang terdampak mencakup keluarga GPT-5 milik OpenAI (nano, mini, full), o4-mini, gpt-oss-20b dan gpt-oss-120b, serta GLM-4.6, Kimi-K2-Instruct, dan MiniMax-M2.
Pada eksperimen terpisah, peneliti menyisipkan instruksi berbahaya di sebuah halaman web yang membuat agen AI untuk coding mengunggah berkas SECRETS.env. Uji coba ini menunjukkan bagaimana konten dari web dapat dipakai untuk mengekfiltrasi kredensial dan data sensitif lain. Mereka juga menemukan bahwa sekadar memberi label "User" pada teks injeksi meningkatkan peluang model memperlakukannya sebagai input pengguna yang sah.
Temuan ini relevan langsung bagi industri kripto. Platform kripto dan tim pengembang semakin mengandalkan agen otomatis untuk deployment, pembuatan wallet, pengelolaan kunci, serta pipeline CI/CD yang menyimpan API key dan kredensial privat. Jika model bisa ditipu untuk menganggap konten yang dikendalikan penyerang sebagai penalarannya sendiri atau sebagai perintah pengguna, risikonya mencakup kebocoran kredensial hingga kompromi supply chain.
Demonstrasi SECRETS.env menjadi sorotan karena berkas environment sering berisi API key, kredensial node, dan private key. Kebocoran semacam ini dapat memicu pengurasan dana, transaksi tanpa izin, atau deployment kontrak yang sudah disusupi.
Makalah ini muncul di tengah rangkaian temuan kerentanan prompt injection. Pada April, peneliti Google menyoroti halaman web berbahaya yang menyembunyikan instruksi tak terlihat untuk mendorong agen membocorkan kredensial atau melakukan tindakan seperti mengirim pembayaran. Pada Juni, Microsoft mengungkap risiko prompt injection pada Claude Code GitHub Action milik Anthropic yang berpotensi mengekspos secret pipeline. Sejumlah benchmark lanjutan juga menunjukkan agen berbasis GPT-5 dan Gemini masih gagal dalam banyak pengujian prompt injection.
Kesimpulannya, studi ini menyoroti titik buta arsitektural: LLM belum mampu membedakan secara kokoh antara penalaran internal dan input eksternal, sehingga kepercayaan terhadap "pikiran internal" bisa dibajak. Bagi ekosistem kripto, di mana secret dan otomasi tooling adalah inti operasi, temuan ini menegaskan perlunya desain agen yang lebih tangguh, pemisahan yang lebih ketat antara penalaran model dan data eksternal, serta guard runtime yang lebih baik untuk mencegah eksfiltrasi kredensial.
Bagi pengelola infrastruktur kripto atau pembangun alur kerja pengembangan berbasis agen, riset ini layak diperlakukan sebagai peringatan praktis: audit titik di mana model dapat mengambil konten web atau mengakses berkas environment, dan asumsikan teks injeksi dapat mencoba menyamar sebagai output model yang "tepercaya".