ثغرة "ارتباك الأدوار" في نماذج اللغة تكشف مفاتيح التشفير عبر تزوير "سلسلة الأفكار"
ملخص سوق AI
تصف أبحاث ICML حقن تعليمات عبر الموجّه (prompt injection) يُسمّى "Chain-of-Thought Forgery" يستغلّ ارتباك الأدوار لدى نماذج LLM لتجاوز الضوابط الوقائية واستخراج الأسرار (مثل SECRETS.env) من وكلاء البرمجة. وبالنسبة لشركات الكريبتو التي تستخدم الوكلاء في CI/CD وعمليات المحافظ وإدارة المفاتيح، فإن ذلك يرفع مخاطر التشغيل والأمن على المدى القريب، ويزيد الاحتمال المُتصوَّر لتسرّب بيانات الاعتماد، واختراق سلسلة التوريد، والمعاملات غير المصرّح بها. وقد تضغط هذه الأخبار على المعنويات تجاه بنية الكريبتو التحتية والاعتماد على الأدوات.
مستوى التأثير
● متوسط
الأصول المتأثرة
BTC/USDT+0.35%
رؤية AI · BTC/USDTرؤية AI
▼ هابط
تداول الآن
⚠️ الرؤى التي يُنشئها AI مبنية على محتوى الأخبار، وتُقدَّم لأغراض معلوماتية فقط. لا تُشكّل نصيحة استثمارية، ولا تعبّر عن آراء BingX. ينطوي الاستثمار على مخاطر. يُرجى التداول بمسؤولية.
كشف باحثون عن أسلوب بسيط على نحو لافت لخداع روبوتات المحادثة المتقدمة ودفعها إلى تنفيذ سلوكيات خطِرة أو مُضرّة، في تطور يثير مخاوف مباشرة لدى منصات العملات المشفرة وأدوات المطورين.
وفي ورقة قُدمت خلال مؤتمر ICML في يونيو بعنوان "Prompt Injection as Role Confusion"، يوضح كل من Charles Ye وJasmine Cui وDylan HadfieldMenell أن هناك ضعفاً بنيوياً في طريقة فصل نماذج اللغة الكبيرة (LLMs) بين التعليمات الموثوقة والنصوص غير الموثوقة، ما يتيح الالتفاف على مرشحات الأمان. الفكرة تتمثل في جعل النص المحقون يبدو وكأنه جزء من "التفكير الداخلي" للنموذج، فيتعامل معه كإشارة موثوقة ويتبنى تعليمات خبيثة، بما في ذلك توجيهات خطوة بخطوة لتصنيع الكوكايين، أو دفع وكلاء كتابة الشيفرة إلى تسريب ملفات سرية.
كيف تعمل الحيلة
أطلق الباحثون على التقنية اسم "تزوير سلسلة الأفكار" (ChainofThought / CoT Forgery). وبدلاً من استخدام طلب "كسر حماية" تقليدي، يُصاغ المحتوى المحقون بأسلوب يحاكي نص "التفكير" الذي يولده النموذج عادة. وبما أن النماذج تميل إلى اعتبار استدلالاتها السابقة إشارة موثوقة، فإن "الاستدلال المزيف" يكتسب مصداقية ضمنية.
جوهر المشكلة هو ما يسميه المؤلفون "ارتباك الأدوار": كثير من النماذج تعتمد على أسلوب الكتابة بدلاً من وسوم أدوار صريحة لتحديد ما إذا كان النص تعليماً من المستخدم، أو تفكيراً داخلياً، أو محتوى خارجياً. وعندما يشبه النص المحقون أفكار النموذج السابقة، قد يلتبس عليه الأمر فيتعامل معه كأنه استنتاجاته الخاصة وينفذه تلقائياً.
نتائج الاختبارات
أظهرت التجارب ارتفاعاً كبيراً في معدلات نجاح الهجمات: محاولات كانت تفشل في الغالب قفزت إلى نحو 60% نجاح عبر النماذج التي جرى اختبارها. وشملت النماذج المتأثرة عائلة OpenAI GPT5 (nano وmini وfull)، وo4mini، وgptoss20b وgptoss120b، إضافة إلى GLM4.6 وKimiK2Instruct وMiniMaxM2.
وفي تجربة منفصلة، أخفى الباحثون تعليمات خبيثة داخل صفحة ويب أدت إلى قيام وكيل برمجي يعمل بالذكاء الاصطناعي برفع ملف SECRETS.env، في مثال عملي على كيفية استخدام محتوى الويب لاستخراج بيانات اعتماد ومعلومات حساسة. كما وجدوا أن مجرد وسم النص المحقون بكلمة "User" يزيد احتمالية تعامل النموذج معه كمدخلات حقيقية من المستخدم.
لماذا يهم هذا قطاع الكريبتو
تعتمد منصات العملات المشفرة وفرق التطوير بكثافة على الوكلاء الآليين في مهام مثل النشر، وإنشاء المحافظ، وإدارة المفاتيح، وخطوط CI/CD التي تخزن مفاتيح API وبيانات اعتماد خاصة. نموذج يمكن خداعه لاعتبار محتوى تحت سيطرة المهاجم "تفكيراً داخلياً" أو "أوامر مستخدم" يشكل خطراً مباشراً لتسريب بيانات الاعتماد وللاختراق عبر سلسلة التوريد.
وتكتسب تجربة SECRETS.env أهمية خاصة: ملفات البيئة المسرّبة غالباً ما تحتوي مفاتيح API وبيانات اعتماد للعُقد ومفاتيح خاصة، ما قد يفتح الباب لاستنزاف الأموال، أو معاملات غير مصرح بها، أو نشر عقود بطرق مخترَقة.
سياق أوسع
تأتي الورقة ضمن موجة مستمرة من ثغرات "حقن الأوامر". في أبريل، حذر باحثون من Google من صفحات ويب خبيثة تُخفي تعليمات غير مرئية لدفع الوكلاء إلى تسريب بيانات اعتماد أو تنفيذ إجراءات مثل إرسال مدفوعات. وفي يونيو، كشفت Microsoft عن خطر حقن أوامر في Anthropic's Claude Code GitHub Action قد يؤدي إلى كشف أسرار خطوط التشغيل. كما تشير اختبارات متابعة إلى أن وكلاء مدعومين بـ GPT5 وبـ Gemini لا يزالون يفشلون في عدد كبير من اختبارات مقاومة حقن الأوامر.
الخلاصة
تسلط الدراسة الضوء على نقطة عمياء معمارية: نماذج اللغة لا تميز على نحو متين بين استدلالها الداخلي والمدخلات الخارجية، ويمكن اختطاف ثقتها في "الأفكار الداخلية". وبالنسبة لقطاع الكريبتو، حيث تُعد الأسرار والأتمتة محوراً أساسياً، تؤكد النتائج الحاجة العاجلة إلى تصميم وكلاء أكثر تحصيناً، وفصل أشد بين الاستدلال ومصادر البيانات الخارجية، وحواجز تشغيلية تمنع تسريب بيانات الاعتماد.
لمن يدير بنية تحتية للكريبتو أو يبني سير عمل تطوير يعتمد على الوكلاء، تشكل هذه النتائج إنذاراً عملياً: راجع نقاط وصول النماذج إلى محتوى الويب أو ملفات البيئة، وافترض أن النص المحقون قد يحاول التنكر على أنه مخرجات "موثوقة" صادرة عن النموذج نفسه.