Lỗ hổng "nhầm vai" ở LLM có thể làm lộ khóa crypto qua giả mạo CoT

Tóm tắt thị trường bằng AI
Nghiên cứu ICML mô tả kỹ thuật prompt injection "Chain-of-Thought Forgery" khai thác sự nhầm lẫn vai trò của LLM để vượt qua các biện pháp bảo vệ và trích xuất bí mật (ví dụ: SECRETS.env) từ các tác nhân lập trình. Đối với các công ty crypto sử dụng tác nhân trong CI/CD, vận hành ví và quản lý khóa, điều này làm gia tăng rủi ro vận hành và an ninh trong ngắn hạn, làm tăng xác suất được nhận thức về rò rỉ thông tin xác thực, xâm phạm chuỗi cung ứng và các giao dịch trái phép. Tin tức này có thể gây áp lực lên tâm lý đối với cơ sở hạ tầng crypto và mức độ phụ thuộc vào công cụ.
Mức ảnh hưởng
● Trung bình
Tài sản bị ảnh hưởng
BTC/USDT+0.37%
Quan điểm AI · BTC/USDTQuan điểm AI
▼ Giá giảm
Khám phá ngay
⚠️ Nhận định từ AI được tổng hợp từ tin tức và chỉ có giá trị tham khảo. Đây không phải là lời khuyên đầu tư và không thể hiện quan điểm của BingX. Đầu tư luôn đi kèm rủi ro. Vui lòng giao dịch có trách nhiệm.
Một nhóm nghiên cứu vừa chỉ ra một cách tấn công đơn giản nhưng đáng lo: đánh lừa chatbot tiên tiến thực hiện các hành vi nguy hiểm và gây thiệt hại, đặc biệt với nền tảng crypto và công cụ dành cho lập trình viên. Trong bài báo trình bày tại ICML tháng 6, "Prompt Injection as Role Confusion", Charles Ye, Jasmine Cui và Dylan HadfieldMenell mô tả một điểm yếu cấu trúc trong cách mô hình ngôn ngữ lớn (LLM) phân tách chỉ dẫn đáng tin cậy với nội dung không đáng tin, khiến bộ lọc an toàn có thể bị vượt qua. Trọng tâm của kỹ thuật là làm cho đoạn văn bản bị tiêm trông giống "lập luận nội bộ" của chính mô hình. Khi LLM coi phần "suy nghĩ trước đó" như tín hiệu đáng tin, kẻ tấn công có thể khiến mô hình tiếp nhận và làm theo chỉ dẫn độc hại, từ hướng dẫn từng bước tổng hợp cocaine đến thao túng tác nhân viết mã để làm lộ tệp bí mật. Cách "một mẹo" hoạt động Nhóm tác giả gọi phương pháp này là Chain-of-Thought (CoT) Forgery. Thay vì dùng một prompt jailbreak trực diện, kẻ tấn công soạn nội dung tiêm nhiễm sao cho giống phong cách "think" nội bộ của mô hình. Do LLM thường đặt niềm tin ngầm vào lập luận trước đó, "lập luận giả" dễ được coi như kết luận của chính mô hình. Vấn đề nền tảng được mô tả là "role confusion" (nhầm vai). LLM nhiều khi dựa vào văn phong thay vì nhãn vai trò rõ ràng để quyết định đoạn văn bản là chỉ dẫn của người dùng, lập luận của mô hình hay nội dung bên ngoài. Nếu nội dung bị tiêm đủ giống "suy nghĩ" trước đó, mô hình có thể hiểu nhầm đó là kết luận của mình và tự động làm theo. Kết quả thử nghiệm Kỹ thuật này đẩy mạnh tỷ lệ jailbreak: các tấn công trước đó gần như thất bại đã tăng lên khoảng 60% mức thành công trên các mô hình được thử. Danh sách bị ảnh hưởng gồm họ OpenAI GPT-5 (nano, mini, full), o4-mini, gpt-oss-20b và gpt-oss-120b, cùng GLM-4.6, Kimi-K2-Instruct và MiniMax-M2. Trong một thử nghiệm khác, nhóm nghiên cứu giấu chỉ dẫn độc hại trên một trang web, khiến một tác nhân AI viết code tải lên tệp SECRETS.env. Thí nghiệm này minh họa cách nội dung lấy từ web có thể được dùng để rút trộm thông tin đăng nhập và dữ liệu nhạy cảm. Họ cũng ghi nhận việc chỉ cần gắn nhãn đoạn văn bản tiêm là "User" đã làm tăng khả năng mô hình coi đó là đầu vào người dùng hợp lệ. Vì sao đặc biệt đáng ngại với crypto Các nền tảng crypto và đội ngũ phát triển đang dùng tác nhân tự động cho triển khai, tạo ví, quản lý khóa, vận hành CI/CD và lưu trữ API key lẫn thông tin xác thực. Nếu mô hình có thể bị lừa để coi nội dung do kẻ tấn công kiểm soát là lập luận nội bộ hoặc lệnh người dùng, rủi ro rò rỉ credential và xâm phạm chuỗi cung ứng sẽ tăng mạnh. Minh họa với SECRETS.env có tính thực tế cao: tệp môi trường thường chứa API key, thông tin node và khóa riêng, đủ để gây thất thoát quỹ, phát sinh giao dịch trái phép hoặc bị chiếm quyền triển khai hợp đồng. Bối cảnh: không phải cảnh báo đơn lẻ Bài báo xuất hiện giữa làn sóng lỗ hổng prompt injection. Tháng 4, các nhà nghiên cứu Google cảnh báo trang web độc hại có thể nhúng chỉ dẫn "vô hình" để dụ tác nhân làm lộ credential hoặc thực hiện hành động như gửi thanh toán. Tháng 6, Microsoft công bố rủi ro prompt injection trong GitHub Action Claude Code của Anthropic có thể làm lộ bí mật pipeline. Các benchmark cập nhật cũng cho thấy tác nhân chạy trên GPT-5 và Gemini vẫn trượt nhiều bài kiểm tra prompt injection. Kết luận Nghiên cứu phơi bày một điểm mù kiến trúc: LLM chưa phân biệt vững chắc giữa lập luận của chính nó và dữ liệu bên ngoài, tạo ra một kênh "niềm tin" có thể bị chiếm dụng. Với lĩnh vực crypto, nơi bí mật và tự động hóa là cốt lõi, phát hiện này nhấn mạnh nhu cầu cấp bách về thiết kế tác nhân chắc chắn hơn, tách biệt nghiêm ngặt giữa phần lập luận và dữ liệu ngoại sinh, cùng cơ chế bảo vệ khi chạy để ngăn rút trộm credential. Nếu bạn vận hành hạ tầng crypto hoặc xây workflow dev dựa trên tác nhân, đây là tín hiệu cảnh báo thực dụng: cần rà soát nơi mô hình có thể lấy nội dung web hoặc truy cập tệp môi trường, và luôn giả định văn bản bị tiêm có thể tìm cách giả dạng như đầu ra "đáng tin" của mô hình.