MedGemma และ MedSigLIP เป็นโมเดล AI ด้านสุขภาพจาก Google ใช้งานฟรี และเป็น Open source เปิดให้นักพัฒนา และนักวิจัยนำโมเดล AI ชุดนี้ไปต่อยอดทางการแพทย์ได้อย่างมีประสิทธิภาพ
MedGemma และ MedSigLIP: โมเดล AI ด้านสุขภาพจาก Google เปิดใช้งานแบบ Open source
Google ได้เปิดตัวโมเดล Open source ใหม่ในตระกูล Gemma ซึ่งออกแบบมาสำหรับการใช้งานในวงการแพทย์ ได้แก่ MedGemma และ MedSigLIP เพื่อเพิ่มประสิทธิภาพในการวิจัยและพัฒนาแอปพลิเคชันทางการแพทย์

MedGemma เป็นโมเดลแบบ multimodal generative ที่สามารถรับทั้งข้อความและภาพได้ และสร้างข้อความออกมา เช่น การสร้างรายงานภาพรังสี หรือการตอบคำถามจากภาพ ในขณะที่ MedSigLIP เป็น image encoder สำหรับงานที่ต้องจัดโครงสร้างผลลัพธ์ เช่น การจำแนกหรือการค้นคืนภาพ
ข้อดีคือโมเดลทั้ง 2 ตัวนี้สามารถ รันได้บน GPU เพียงตัวเดียว และโมเดลขนาดเล็กอย่าง MedGemma 4B และ MedSigLIP สามารถปรับให้ใช้งานบนอุปกรณ์พกพาได้อีกด้วย รายละเอียดเชิงเทคนิคของการพัฒนาและประเมินโมเดลอยู่ในเอกสาร MedGemma Technical Report

MedGemma
โมเดล MedGemma ใช้ Gemma เวอร์ชัน 4B และ 27B รองรับการนำเข้าทั้งรูปภาพและข้อความ ซึ่งผลลัพธ์ที่ได้จะแสดงออกมาเป็นข้อความ
จุดเด่นคือความยืดหยุ่น เช่น หลังจากการ fine-tune แล้ว MedGemma 4B สามารถสร้างรายงานเอ็กซ์เรย์ทรวงอกได้ในระดับเทียบเคียงกับผลงานวิจัยชั้นนำ โดยได้คะแนน RadGraph F1 ที่ 30.3 สิ่งนี้ชี้ให้เห็นว่า MedGemma เป็นพื้นฐานที่ดีสำหรับนักพัฒนา AI ด้านสุขภาพ
MedSigLIP: Image Encoder เฉพาะทางการแพทย์
MedSigLIP สามารถวิเคราะห์ คำนวณข้อมูลได้อย่างรวดเร็วโดยใช้โครงสร้าง SigLIP (Sigmoid loss for Language Image Pre-training) ที่ได้รับการปรับด้วยข้อมูลภาพทางการแพทย์ของหลากหลายประเภท ได้แก่ ภาพเอ็กซ์เรย์ทรวงอก, ภาพพยาธิวิทยา, โรคผิวหนัง และภาพจอประสาทตา
MedSigLIP ถูกออกแบบมาเพื่อเชื่อมช่องว่างระหว่างภาพและข้อความทางการแพทย์โดยการแปลงข้อมูลทั้งสองชนิดให้อยู่ในรูปแบบทางคณิตศาสตร์ที่เรียกว่า “Common Embedding Space” ทำให้ระบบสามารถเปรียบเทียบและเข้าใจความสัมพันธ์ของภาพกับคำอธิบายที่เป็นข้อความได้โดยตรง
ด้วยเหตุนี้ MedSigLIP จึงมีประสิทธิภาพในการจำแนกประเภทภาพทางการแพทย์ได้เทียบเท่าหรือดีกว่าโมเดลอื่น ๆ ที่ถูกสร้างมาเพื่องานเฉพาะด้าน แต่มีความยืดหยุ่นและใช้งานข้ามโดเมนทางการแพทย์ได้ดีกว่ามาก
MedSigLIP เหมาะสำหรับงานประเภทใด?
การจำแนกประเภทภาพแบบดั้งเดิม (Traditional Image Classification):
- ใช้สร้างโมเดลประสิทธิภาพสูงเพื่อจำแนกประเภทของภาพทางการแพทย์ เช่น บอกว่าภาพเอกซเรย์นี้เป็นโรคปอดบวมหรือไม่
- การจำแนกประเภทภาพแบบ Zero-shot (Zero-shot Image Classification):
- จำแนกประเภทของภาพได้ โดยไม่จำเป็นต้องมีตัวอย่างภาพนั้น ๆ มาก่อน เพียงแค่เปรียบเทียบข้อมูลที่สกัดจากภาพ (Image Embeddings) กับข้อมูลที่สกัดจาก “ป้ายกำกับที่เป็นข้อความ” (Textual Class Labels) เช่น สามารถบอกได้ว่าภาพถ่ายผิวหนังนั้นเป็น “ไฝ” หรือ “มะเร็งผิวหนัง” โดยอาศัยความเข้าใจจากคำศัพท์เพียงอย่างเดียว
- การค้นหาภาพด้วยความหมายเชิงลึก (Semantic Image Retrieval):
- ใช้ค้นหาภาพที่มีลักษณะคล้ายกันทั้งในเชิง “ภาพที่มองเห็น” และในเชิง “ความหมายที่ซ่อนอยู่” จากฐานข้อมูลภาพทางการแพทย์ขนาดใหญ่ได้อย่างรวดเร็วและแม่นยำ
ที่มา: research.google