in ,

OpenAI เรียกร้องให้ AI Labs ทดสอบความปลอดภัยของโมเดลคู่แข่ง

OpenAI และ Anthropic 2 AI Labs ชั้นนำของโลก ได้ร่วมมือกันเปิดโมเดล AI เพื่อทดสอบความปลอดภัย เป็นการทำงานร่วมกันที่หาได้ยากท่ามกลางการแข่งขันสูง มุ่งเน้นการหาจุดบอด และแสดงให้เห็นถึงความร่วมมือด้านความปลอดภัยในอนาคต

OpenAI เรียกร้องให้ AI Labs ทดสอบความปลอดภัยของโมเดลคู่แข่ง

การร่วมมือทดสอบความปลอดภัยท่ามกลางการแข่งขัน

OpenAI และ Anthropic ได้เปิดโมเดล AI ที่เป็นความลับขั้นสุดยอด เพื่อให้สามารถทดสอบความปลอดภัย ซึ่งนับเป็นการทำงานร่วมกันข้ามห้องแล็บที่หาได้ยากในช่วงเวลาของการแข่งขันที่ดุเดือด ความพยายามนี้มีจุดมุ่งหมายเพื่อค้นหาจุดบอดในการประเมินภายในของแต่ละบริษัท และแสดงให้เห็นว่าบริษัท AI ชั้นนำสามารถทำงานร่วมกันด้านความปลอดภัย และการจัดแนวทางในอนาคตได้อย่างไร

Wojciech Zaremba ผู้ร่วมก่อตั้ง OpenAI กล่าวว่าความร่วมมือนี้มีความสำคัญมาก เนื่องจาก AI กำลังเข้าสู่ขั้นตอนการพัฒนาที่มี “ผลกระทบอย่างมาก” เพราะทุกวันนี้ AI ถูกใช้งานโดยผู้คนนับล้าน พร้อมบอกอีกว่า “มีคำถามที่กว้างกว่านั้นเกี่ยวกับวิธีที่อุตสาหกรรมกำหนดมาตรฐานด้านความปลอดภัยและความร่วมมือ แม้ว่าจะมีการลงทุนไปหลายพันล้านดอลลาร์ รวมถึงการแข่งขันแย่งชิงบุคลากร ผู้ใช้ และผลิตภัณฑ์ที่ดีที่สุด”

การแข่งขันที่ดุเดือดและการเข้าถึง API

งานวิจัยด้านความปลอดภัยร่วมกัน ซึ่งเผยแพร่โดยทั้ง 2 บริษัทเมื่อไม่นานนี้ เกิดขึ้นท่ามกลางการแข่งขันกันอย่างดุเดือดระหว่างห้องแล็บ AI ชั้นนำ เช่น OpenAI และ Anthropic ซึ่งการลงทุนศูนย์ข้อมูลหลายพันล้านดอลลาร์ และมีค่าตอบแทน 100 ล้านดอลลาร์สำหรับนักวิจัยชั้นนำกลายเป็นเรื่องปกติ ผู้เชี่ยวชาญบางคนเตือนว่าการแข่งขันด้านผลิตภัณฑ์อาจกดดันให้บริษัทต่าง ๆ ลดทอนมาตรฐานความปลอดภัยในการเร่งสร้างระบบที่ทรงพลังยิ่งขึ้น

เพื่อให้งานวิจัยนี้เป็นไปได้ ทั้ง OpenAI และ Anthropic ได้ให้สิทธิ์เข้าถึง API พิเศษซึ่งกันและกัน สำหรับโมเดล AI เวอร์ชันที่มีมาตรการป้องกันน้อยลง (OpenAI ระบุว่า GPT-5 ยังไม่ได้รับการทดสอบเนื่องจากยังไม่เปิดตัว) อย่างไรก็ตาม หลังจากที่ทำการวิจัยไม่นาน Anthropic ได้เพิกถอนสิทธิ์การเข้าถึง API ของทีมอื่นใน OpenAI ในเวลานั้น Anthropic อ้างว่า OpenAI ละเมิดข้อกำหนดในการให้บริการ ซึ่งห้ามใช้ Claude เพื่อปรับปรุงผลิตภัณฑ์ของคู่แข่ง

Zaremba กล่าวว่าเหตุการณ์เหล่านั้นไม่เกี่ยวข้องกัน และเขาคาดว่าการแข่งขันจะยังคงดุเดือดแม้ว่าทีมความปลอดภัย AI จะพยายามทำงานร่วมกัน

โดย Nicholas Carlini นักวิจัยด้านความปลอดภัยจาก Anthropic กล่าวกับ TechCrunch ว่าเขาต้องการที่จะอนุญาตให้นักวิจัยความปลอดภัยของ OpenAI เข้าถึงโมเดล Claude ได้ต่อไปในอนาคต พร้อมกล่าวว่า “เราต้องการเพิ่มความร่วมมือให้มากที่สุดเท่าที่จะเป็นไปได้ในด้านความปลอดภัย และพยายามทำให้สิ่งนี้เกิดขึ้นเป็นประจำมากขึ้น”

ที่มารูปภาพ: anthropic

ผลการทดสอบ: อาการหลอน (AI Hallucination)

หนึ่งในข้อค้นพบที่ชัดเจนที่สุดในการศึกษานี้เกี่ยวข้องกับการทดสอบการหลอน (hallucination) โมเดล Claude Opus 4 และ Sonnet 4 ของ Anthropic ปฏิเสธที่จะตอบคำถามมากถึง 70% เมื่อไม่แน่ใจในคำตอบที่ถูกต้อง โดยให้คำตอบเช่น “ฉันไม่มีข้อมูลที่เชื่อถือได้” ในขณะเดียวกัน โมเดล o3 และ o4-mini ของ OpenAI ปฏิเสธที่จะตอบคำถามน้อยกว่ามาก แต่กลับแสดงอัตราการหลอนที่สูงกว่ามาก โดยพยายามตอบคำถามแม้ว่าจะไม่มีข้อมูลเพียงพอ

ผลการทดสอบ: การประจบ (Sycophancy)

การประจบ (Sycophancy) ซึ่งเป็นแนวโน้มที่โมเดล AI จะเสริมพฤติกรรมเชิงลบของผู้ใช้งานเพื่อเอาใจ ได้กลายเป็นหนึ่งในข้อกังวลด้านความปลอดภัยที่เร่งด่วนที่สุดเกี่ยวกับโมเดล AI

ในรายงานวิจัยของ Anthropic บริษัทได้ระบุตัวอย่างของ “การประจบ” ใน GPT-4.1 และ Claude Opus 4 ซึ่งโมเดลเหล่านี้ในตอนแรกได้ปฏิเสธพฤติกรรมทางจิตเวชหรือคลุ้มคลั่ง แต่ต่อมากลับยืนยันการตัดสินใจที่น่ากังวลบางอย่าง ในโมเดล AI อื่นๆ จาก OpenAI และ Anthropic นักวิจัยพบระดับการประจบที่ต่ำกว่า

คดีของ Adam Raine และความเสี่ยงของ AI

เมื่อวันอังคารที่ผ่านมา พ่อแม่ของเด็กชายอายุ 16 ปี นามว่า Adam Raine ได้ยื่นฟ้อง OpenAI โดยอ้างว่า ChatGPT (โดยเฉพาะเวอร์ชันที่ขับเคลื่อนด้วย GPT-4o) ได้ให้คำแนะนำแก่ลูกชายของพวกเขาที่ช่วยในการฆ่าตัวตาย แทนที่จะปฏิเสธความคิดอยากฆ่าตัวตายของเขา คดีนี้ชี้ให้เห็นว่านี่อาจเป็นตัวอย่างล่าสุดของการประจบของ AI แชตบอตที่นำไปสู่ผลลัพธ์ที่น่าเศร้า

Zaremba กล่าวเมื่อถูกถามเกี่ยวกับเหตุการณ์นี้ “เป็นเรื่องยากที่จะจินตนาการว่าครอบครัวของพวกเขาต้องเผชิญกับความยากลำบากเพียงใด มันจะเป็นเรื่องน่าเศร้าถ้าเราสร้าง AI ที่สามารถแก้ปัญหาที่ซับซ้อนระดับปริญญาเอก คิดค้นวิทยาศาสตร์ใหม่ ๆ ได้ แต่ในขณะเดียวกัน เรากลับมีผู้คนที่มีปัญหาสุขภาพจิตอันเป็นผลมาจากการใช้มัน นี่คืออนาคตแบบดิสโทเปียที่ผมไม่ตื่นเต้นด้วยเลย”

ในบล็อกโพสต์ OpenAI ระบุว่าได้ปรับปรุงการประจบของแชตบอต AI อย่างมีนัยสำคัญด้วย GPT-5 เมื่อเทียบกับ GPT-4o โดยอ้างว่าโมเดลนี้สามารถตอบสนองต่อภาวะฉุกเฉินด้านสุขภาพจิตได้ดีขึ้น

แนวทางในอนาคต: เพิ่มความร่วมมือด้านความปลอดภัย

Zaremba และ Carlini กล่าวว่าพวกเขาต้องการให้ Anthropic และ OpenAI ร่วมมือกันมากขึ้นในการทดสอบความปลอดภัย โดยพิจารณาหัวข้ออื่นๆ และทดสอบโมเดลในอนาคต พวกเขาหวังว่าห้องแล็บ AI อื่น ๆ จะปฏิบัติตามแนวทางการทำงานร่วมกันนี้

ที่มา: techcrunch

ความคิดเห็น - Like เพจ iPhoneMod.net

เขียนโดย Nattida Suriyodara

Writer and Creator from IMod