งานวิจัยใหม่พบว่า AI อย่าง ChatGPT และ Gemini อาจถูกหลอกให้ตอบคำถามอันตรายได้ หากข้อความนั้นถูกใช้ในรูปแบบของบทกวี
แชทบอต AI ตอบคำถามที่อันตรายได้ หากถูกถามในรูปแบบบทกวี
ช่องโหว่ระบบ: บทกวีคือช่องทางเจาะผ่านระบบป้องกันได้สำเร็จ
งานวิจัยจากห้องทดลอง Icaro Lab ในอิตาลี พบว่าแบบจำลองภาษา AI สามารถถูกหลอกให้ตอบคำถามอันตรายได้ หากคำถามถูกเปลี่ยนให้อยู่ในรูปแบบของบทกวี เทคนิคนี้เรียกว่า “universal single turn jailbreak” หรือหมายถึงการหลอกให้ AI ทำตามคำสั่งอันตรายได้ในข้อความเพียงหนึ่งรอบ โดยใช้บทกวีเป็นเครื่องมือ

ผลการทดลองกับโมเดล AI ชั้นนำ 25 แบบ
นักวิจัยได้ทดสอบคำสั่งที่เป็นอันตรายจำนวน 20 รายการ โดยนำมาดัดแปลงให้อยู่ในรูปแบบของบทกวี และใช้ทดสอบกับโมเดล AI ทั้งแบบ Open Source และแบบปิด 25 ระบบ เช่น Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral AI, Meta, xAI และ Moonshot AI ผลลัพธ์พบว่าอัตราความสำเร็จในการเจาะระบบเฉลี่ยอยู่ที่ 62%
เมื่อใช้ AI เขียนบทกวีที่แฝงคำสั่งอันตรายอัตโนมัติ ผลยังคงพบว่าโมเดล AI เหล่านี้ให้คำตอบต่อคำถามที่ควรถูกบล็อก ด้วยอัตราความสำเร็จ 43% แสดงให้เห็นว่าการหลอกระบบผ่านภาษาที่สละสลวยสามารถใช้ได้จริงแม้คำสั่งต้นทางจะไม่เขียนโดยมนุษย์
บทกวีทรงพลังกว่าร้อยแก้วสูงถึง 18 เท่า
ข้อความที่มีลักษณะเป็นบทกวี (ภาษาสละสลวย) สามารถกระตุ้นให้ AI ตอบคำถามที่ไม่ปลอดภัยได้มากกว่ารูปแบบร้อยแก้ว (prose) ทั่วไป ถึง 18 เท่าในบางกรณี ผลดังกล่าวปรากฎให้เห็นใน AI ทุกตัวที่วิจัย ซึ่งแสดงเป็นจุดอ่อนระดับโครงสร้างของโมเดล ไม่ใช่ปัญหาที่มาจากวิธีการฝึกสอนเฉพาะเจาะจงของแต่ละระบบ
โมเดลขนาดเล็กปลอดภัยกว่าโมเดลขนาดใหญ่
ผลการวิจัยยังพบว่าโมเดลขนาดเล็กบางตัว ปกป้องได้ดีกว่า เช่น GPT 5 Nano ไม่ตอบคำถามอันตรายในรูปแบบบทกวีเลย ซึ่งตรงข้ามกับ Gemini 2.5 Pro แสดงให้เห็นว่าเมื่อโมเดลมีความสามารถด้านภาษาสูงขึ้น ก็อาจส่งผลให้มัน “ตีความ” บทกวีเชิงซับซ้อนจนหลุดกรอบข้อจำกัดด้านความปลอดภัย

ก้าวข้ามความเชื่อว่าโมเดลปิดปลอดภัยกว่าโอเพ่นซอร์ส
การศึกษานี้ยังท้าทายแนวคิดที่ว่า โมเดลปิด (closed source) มีความปลอดภัยมากกว่าโอเพ่นซอร์ส เพราะช่องโหว่นี้ถูกพบบ่อยทั้งในโมเดลสองประเภท แสดงให้เห็นว่าการเปิดหรือปิดซอร์สโค้ด อาจไม่ได้ส่งผลต่อความสามารถในการป้องกันภัยโดยตรง
ทำไมบทกวีถึงหลอก AI ได้?
LLM (Large Language Model) ถูกฝึกให้จดจำภัยคุกคาม เช่น ถ้อยคำเกลียดชังหรือคำสั่งที่เป็นอันตราย ผ่านรูปแบบภาษาทั่วไปที่พบได้บ่อยในร้อยแก้ว โดยใช้การวิเคราะห์จากคีย์เวิร์ด และโครงสร้างประโยค
แต่บทกวีใช้ภาษานามธรรม อุปมาอุปไมย โครงสร้างประโยคแปลก หรือจังหวะการเขียนไม่ปกติ ซึ่งทั้งหมดนี้ไม่เข้าเงื่อนไขของข้อความอันตรายที่โมเดลได้ฝึกไว้ ทำให้สามารถเล็ดลอดระบบป้องกันได้โดยโมเดลไม่รู้ตัว
ที่มา: livemint
