แทบจะทุกๆ ไม่กี่สัปดาห์ มักจะมีงานวิจัยหรือเดโม่ใหม่ออกมาเคลมว่า GPT-4 สามารถอ่านฟิล์มเอกซเรย์ได้แล้ว พาดหัวข่าวก็มักจะมาแนวๆ ว่า "AI สอบผ่านรังสีวิทยาแล้ว" แต่ในความเป็นจริงมันมีความน่าสนใจอยู่ และก็ไม่ได้ดูว้าวขนาดที่พาดหัวข่าวบอกไว้
มีงานวิจัยจำนวนมากขึ้นเรื่อยๆ ที่ทดสอบโมเดลภาษาขนาดใหญ่แบบ multimodal ในการอ่านฟิล์มเอกซเรย์ปอด (CXR) โดยนำไปเทียบกับรังสีแพทย์และโมเดล CXR เฉพาะทาง ผลลัพธ์ที่ได้ออกมาไปในทิศทางเดียวกันหมด GPT-4V สามารถเขียนอธิบายฟิล์ม CXR ออกมาเป็นข้อความที่อ่านรู้เรื่อง มันสามารถระบุความผิดปกติที่เห็นได้ชัดๆ อย่างภาวะหัวใจโตหรือน้ำในช่องเยื่อหุ้มปอดปริมาณมากได้แม่นยำในระดับปานกลาง แต่มันก็ยังทำผลงานได้ต่ำกว่าโมเดลเฉพาะทางอย่าง CheXpert หรือ CheXzero มาก และยังสู้รังสีแพทย์ที่ได้บอร์ดไม่ได้เลยในแง่ของการค้นหาความผิดปกติที่มีผลต่อการตัดสินใจรักษาจริงๆ 1,2
เหตุผลก็ไม่ได้ซับซ้อนอะไร โมเดล CXR เฉพาะทางถูกเทรนด้วยภาพเอกซเรย์ปอดที่มีการทำป้ายกำกับไว้เป็นแสนๆ ภาพจากฐานข้อมูลอย่าง MIMIC-CXR CheXpert และ ChestX-ray14 3 ในขณะที่ GPT-4V ถูกเทรนด้วยภาพจากอินเทอร์เน็ตที่มีจำนวนเยอะกว่ามากแต่ไม่ได้มีการคัดกรองอย่างละเอียด โมเดลทั่วไปก็คือผู้เชี่ยวชาญแบบกว้างๆ ซึ่งตอนนี้มันกำลังถูกขอให้ไปแข่งกับผู้เชี่ยวชาญเฉพาะทางในถิ่นของพวกเขาเอง
สิ่งที่เรื่องนี้ไม่ได้พิสูจน์
งานวิจัยที่วัดผลการทดสอบแค่ชิ้นเดียวไม่ได้เป็นตัวแทนของวงการทั้งหมด ตัวเลขต่างๆ มีความแตกต่างกันอย่างมากตามชุดข้อมูล พรอมต์ และมาตรฐานอ้างอิงที่ใช้ งานประเมินผลส่วนใหญ่ที่ตีพิมพ์ออกมามักจะใช้ชุดทดสอบขนาดเล็ก บางครั้งก็ใช้แค่ร้อยภาพหรือน้อยกว่านั้นแถมดึงมาจากแหล่งเดียว ที่สำคัญคือยังไม่มีงานไหนที่ถูกนำมาทดสอบความถูกต้องกับกลุ่มผู้ป่วยคนไทยเลย และส่วนใหญ่ก็ไม่ได้แยกความผิดปกติตามความเร่งด่วนทางคลินิก โมเดลที่บอกว่าภาวะหัวใจโตแบบก้ำกึ่งทุกเคสเป็น "ปกติ" อาจจะทำตัวเลขความแม่นยำออกมาดูดีได้ แต่กลับพลาดผู้ป่วยที่จำเป็นต้องได้รับการตรวจเอคโค่หัวใจเป็นคิวต่อไป
นอกจากนี้ยังมีปัญหาที่ไม่ค่อยมีใครพูดถึงเกี่ยวกับวิธีการตั้งกรอบเปรียบเทียบในงานเหล่านี้ งานวิจัยที่โชว์ว่า GPT-4V มีความแม่นยำ 65 เปอร์เซ็นต์นั้นไม่ค่อยน่าสนใจเท่าไหร่ ถ้าเราไม่รู้ว่าแพทย์ประจำบ้านรังสีวิทยาทำคะแนนได้เท่าไหร่ อาจารย์แพทย์ทำได้เท่าไหร่ และโมเดล CXR เฉพาะทางทำคะแนนได้เท่าไหร่ในชุดทดสอบเดียวกัน พวกพาดหัวข่าวมักจะตัดตัวเลขเหล่านี้ทิ้งไป แต่งานวิจัยจริงๆ แทบจะไม่เคยทิ้งตัวเลขพวกนี้เลย
แล้วมันแปลว่าอะไรสำหรับการแพทย์ไทย
มีข้อคิดที่นำไปใช้ได้จริงอยู่สองข้อ
ข้อแรก เวลาที่มีคนมาสาธิตให้ดูว่า GPT-4 อ่านฟิล์มเอกซเรย์ได้ในงานคอนเฟอเรนซ์หรือในงานขายของ คำถามที่คุณควรจะถามไม่ใช่ว่ามันอ่านเคสนี้ถูกไหม แต่ต้องถามว่าเกณฑ์มาตรฐานที่คุณเอาไปเทียบคืออะไร และตัวที่เอามาเทียบด้วยทำคะแนนได้เท่าไหร่ ถ้าพวกเขาตอบไม่ได้ การสาธิตนั้นก็เป็นแค่การแสดงปาหี่
ข้อสอง ช่องว่างตรงนี้กำลังแคบลงก็จริง แต่ก็ค่อยเป็นค่อยไป และคงจะไม่ได้เกิดขึ้นกับบริบททางคลินิกที่ใช้ภาษาไทยเป็นที่แรกแน่ๆ โมเดลเฉพาะทางสำหรับสาขาเฉพาะและกลุ่มประชากรเฉพาะก็ยังคงเป็นเครื่องมือที่เหมาะสมที่สุดในการนำมาใช้งานจริงทางคลินิกในอนาคตอันใกล้นี้ บทบาทของโมเดลทั่วไปน่าจะเป็นแค่ชั้นของการจัดการเวิร์กโฟลว์ที่ครอบทับโมเดลเฉพาะทางอีกที ไม่ใช่เครื่องมือที่จะเอามาแทนที่กัน
ถ้าใครอยากอ่านเพิ่มเติม เอกสารอ้างอิงด้านล่างถือเป็นจุดเริ่มต้นที่ดี โดยเฉพาะเอกสารอ้างอิงที่ 2 ซึ่งมีการออกแบบตัวเปรียบเทียบที่รัดกุมที่สุดเท่าที่เราเคยเห็นมาครับ