ช่องโหว่ "สับสนบทบาท" ใน LLM เปิดทางปลอม CoT หลอกดึงคีย์คริปโต

สรุปภาพรวมตลาดด้วย AI
งานวิจัย ICML อธิบายการโจมตีแบบ prompt injection ที่เรียกว่า "Chain-of-Thought Forgery" ซึ่งอาศัยความสับสนของบทบาท LLM เพื่อหลบเลี่ยงมาตรการป้องกันและดึงความลับออกมา (เช่น SECRETS.env) จากเอเจนต์เขียนโค้ด สำหรับบริษัทคริปโตที่ใช้เอเจนต์ใน CI/CD การดำเนินการกระเป๋าเงิน และการจัดการคีย์ ประเด็นนี้เพิ่มความเสี่ยงด้านปฏิบัติการและความปลอดภัยในระยะใกล้ ทำให้ความน่าจะเป็นที่รับรู้ของการรั่วไหลของข้อมูลรับรอง การถูกโจมตีซัพพลายเชน และธุรกรรมที่ไม่ได้รับอนุญาตเพิ่มขึ้น ข่าวนี้อาจกดดันความเชื่อมั่นต่อโครงสร้างพื้นฐานคริปโตและการพึ่งพาเครื่องมือและทูลลิง
ระดับผลกระทบ
● ปานกลาง
สินทรัพย์ที่ได้รับผลกระทบ
BTC/USDT+0.35%
ข้อมูลเชิงลึกจาก AI · BTC/USDTข้อมูลเชิงลึกจาก AI
▼ ขาลง
เทรดตอนนี้
⚠️ ข้อความเชิงลึกนี้สร้างขึ้นโดย AI โดยอ้างอิงจากเนื้อหาข่าวเพื่อใช้เป็นข้อมูลอ้างอิงเท่านั้น ไม่ถือเป็นคำแนะนำในการลงทุนหรือสะท้อนทัศนะของ BingX การลงทุนมีความเสี่ยง โปรดซื้อขายด้วยความระมัดระวัง
งานวิจัยใหม่ชี้ว่าแชตบอตระดับสูงสามารถถูกหลอกให้ทำสิ่งที่อันตรายและสร้างความเสียหายได้ด้วยวิธีที่เรียบง่ายกว่าที่คิด และผลกระทบต่อแพลตฟอร์มคริปโตและเครื่องมือสายพัฒนาถือว่าน่ากังวลอย่างยิ่ง ในงานประชุม ICML เดือนมิถุนายน บทความ "Prompt Injection as Role Confusion" ของ Charles Ye, Jasmine Cui และ Dylan HadfieldMenell ระบุว่าโมเดลภาษาขนาดใหญ่ (LLM) มีจุดอ่อนเชิงโครงสร้างในการแยก "คำสั่งที่เชื่อถือได้" ออกจาก "ข้อความที่ไม่น่าเชื่อถือ" ทำให้ผู้โจมตีใช้เลี่ยงตัวกรองความปลอดภัยได้ โดยทำให้ข้อความที่ฉีดเข้าไปมีหน้าตาเหมือน "เหตุผลภายใน" ของโมเดลเอง โมเดลจึงยอมรับและปฏิบัติตามคำสั่งอันตราย เช่น ขั้นตอนสังเคราะห์โคเคนแบบละเอียด และยังสามารถชักจูงเอเจนต์เขียนโค้ดให้รั่วไหลไฟล์ลับได้ วิธี "ไม้ตาย" ทำงานอย่างไร ทีมวิจัยเรียกเทคนิคนี้ว่า Chain-of-Thought (CoT) Forgery แทนการใช้พรอมป์ต์ jailbreak แบบโจ่งแจ้ง ผู้โจมตีจะสร้างเนื้อหาที่เลียนแบบสไตล์ "ข้อความคิดในใจ" ของโมเดล เมื่อ LLM ให้ความเชื่อถือกับเหตุผลก่อนหน้าของตัวเองเป็นสัญญาณที่ไว้ใจได้ "เหตุผลปลอม" จึงได้รับความน่าเชื่อถือไปโดยปริยาย รากของปัญหาคือสิ่งที่ผู้เขียนเรียกว่า "role confusion": LLM จำนวนมากตัดสินว่าเนื้อหาเป็นคำสั่งของผู้ใช้ เป็นเหตุผลของโมเดล หรือเป็นข้อความภายนอก จาก "รูปแบบการเขียน" มากกว่าการอ้างอิงแท็กบทบาทอย่างชัดเจน หากข้อความที่ถูกฉีดมีลักษณะเหมือนความคิดก่อนหน้าของโมเดล โมเดลอาจเข้าใจผิดว่าเป็นข้อสรุปของตัวเองและทำตามโดยอัตโนมัติ ผลทดสอบที่พบ เทคนิคนี้ทำให้อัตราความสำเร็จของการ jailbreak เพิ่มขึ้นอย่างมีนัยสำคัญ จากเดิมที่โจมตีไม่ค่อยสำเร็จ กลายเป็นสำเร็จราว 60% โดยเฉลี่ยในโมเดลที่ทดสอบ รายชื่อที่ได้รับผลกระทบรวมถึงตระกูล GPT-5 ของ OpenAI (nano, mini, full), o4-mini, gpt-oss-20b และ gpt-oss-120b รวมถึง GLM-4.6, KimiK2-Instruct และ MiniMax-M2 อีกการทดลองหนึ่ง ทีมวิจัยซ่อนคำสั่งอันตรายไว้ในหน้าเว็บ จนทำให้เอเจนต์เขียนโค้ดอัปโหลดไฟล์ SECRETS.env แสดงให้เห็นว่าเนื้อหาที่ดึงจากเว็บสามารถถูกใช้เพื่อดูดข้อมูลรับรองและข้อมูลอ่อนไหวได้ นอกจากนี้ยังพบว่าเพียงติดป้ายข้อความที่ฉีดว่า "User" ก็เพิ่มโอกาสที่โมเดลจะมองว่าเป็นอินพุตของผู้ใช้จริง ประเด็นสำคัญต่ออุตสาหกรรมคริปโต แพลตฟอร์มคริปโตและทีมพัฒนาพึ่งพาเอเจนต์อัตโนมัติอย่างมากในงานดีพลอย การสร้างวอลเล็ต การจัดการคีย์ และกระบวนการ CI/CD ที่มักเก็บ API key และข้อมูลรับรองสำคัญ โมเดลที่ถูกหลอกให้มองเนื้อหาที่ผู้โจมตีควบคุมว่าเป็นเหตุผลของตัวเองหรือเป็นคำสั่งผู้ใช้ ก่อความเสี่ยงโดยตรงต่อการรั่วไหลของข้อมูลรับรองและการโจมตีซัพพลายเชน เดโม SECRETS.env สะท้อนความเสี่ยงได้ชัด เพราะไฟล์ environment มักมี API key, ข้อมูลรับรองโหนด และ private key ซึ่งอาจนำไปสู่การดูดเงิน การทำธุรกรรมโดยไม่ได้รับอนุญาต หรือการดีพลอยสัญญาอัจฉริยะที่ถูกยึดควบคุม บริบท: ไม่ใช่สัญญาณเตือนโดดเดี่ยว งานวิจัยนี้เผยแพร่ท่ามกลางรายงานช่องโหว่ prompt injection ต่อเนื่อง เดือนเมษายน นักวิจัยของ Google เตือนเรื่องหน้าเว็บอันตรายที่ซ่อนคำสั่งแบบมองไม่เห็นเพื่อหลอกเอเจนต์ให้รั่วข้อมูลรับรองหรือทำกิจกรรมอย่างการส่งเงิน เดือนมิถุนายน Microsoft เปิดเผยความเสี่ยง prompt injection ใน Anthropic's Claude Code GitHub Action ที่อาจทำให้ความลับใน pipeline รั่วไหล และผลเบนช์มาร์กติดตามผลระบุว่าเอเจนต์ที่ขับเคลื่อนด้วย GPT-5 และ Gemini ยังตกการทดสอบ prompt injection อีกหลายรายการ สรุป การศึกษานี้ชี้จุดบอดเชิงสถาปัตยกรรม: LLM ยังแยก "เหตุผลของตัวเอง" ออกจาก "อินพุตภายนอก" ได้ไม่แข็งแรง และความเชื่อถือที่ให้กับ "ความคิดภายใน" สามารถถูกยึดเป็นช่องทางโจมตีได้ สำหรับวงการคริปโตที่ความลับและระบบอัตโนมัติเป็นหัวใจ ผลค้นพบนี้ตอกย้ำความจำเป็นเร่งด่วนในการออกแบบเอเจนต์ให้แข็งแรงขึ้น แยกส่วนเหตุผลของโมเดลออกจากข้อมูลภายนอกให้ชัด และเพิ่มการ์ดรันไทม์เพื่อกันการดูดข้อมูลรับรอง ผู้ดูแลโครงสร้างพื้นฐานคริปโตหรือผู้สร้างเวิร์กโฟลว์สายพัฒนาแบบขับเคลื่อนด้วยเอเจนต์ควรมองงานนี้เป็นสัญญาณเตือนเชิงปฏิบัติ: ตรวจสอบจุดที่โมเดลสามารถดึงคอนเทนต์จากเว็บหรือเข้าถึงไฟล์ environment ได้ และตั้งสมมติฐานไว้เสมอว่าข้อความที่ถูกฉีดสามารถปลอมตัวเป็นเอาต์พุต "ที่เชื่อถือได้" ของโมเดลได้