ฝึกรุ่น AI การแพทย์บน AMD ROCm 7 ไร้ CUDA
ทดสอบการฝึกรุ่น AI การแพทย์บน AMD ROCm 7 สำเร็จลื่นไหล ไม่ต้องพึ่ง CUDA ชี้ศักยภาพ AMD MI325X ท้าทาย NVIDIA ด้วยมาตรฐาน PyTorch
สรุปสั้น: นักวิจัยประสบความสำเร็จในการปรับแต่งโมเดล Liquid AI LFM2.5-1.2B-Instruct บนชิป AMD MI325X โดยใช้ไลบรารีมาตรฐาน PyTorch และ Hugging Face บนระบบ ROCm 7 โดยไม่ต้องพึ่งพาโค้ดเสริมเฉพาะทาง (custom kernels) ซึ่งเป็นการพิสูจน์ว่าข้อได้เปรียบด้านซอฟต์แวร์ของ NVIDIA อาจไม่แข็งแกร่งดังที่เชื่อ โดยในงานด้าน AI การแพทย์ benchmark MedQA ได้ถูกปิดตัวลงเนื่องจากโมเดลทำคะแนนได้สูงเกิน 95% แล้ว
ข้อเท็จจริงสำคัญ
- โมเดล Liquid AI LFM2.5-1.2B-Instruct ถูกฝึกสำเร็จบน AMD MI325X โดยใช้ PyTorch และ Hugging Face บน ROCm 7 โดยไม่ต้องใช้โค้ดเสริมเฉพาะทาง [1]
- ประสิทธิภาพของ AMD MI325X ถือว่าเทียบเท่า NVIDIA A100 และ GH200 ในสเปกที่คล้ายกัน [1]
- ข้อได้เปรียบของ NVIDIA มาจากซอฟต์แวร์และไลบรารีเช่น cuBLAS, cuDNN และ NCCL ไม่ใช่แค่ฮาร์ดแวร์ [1]
- งาน Inference ที่ใช้เทคนิค Speculative decoding หรือ FlashAttention ยังมีความล่าช้ากว่า CUDA อยู่ [1]
- AMD มีคู่มือและ Jupyter Notebook สำหรับฝึกและรันโมเดลบน GPU ของ AMD อย่างครบถ้วน [2]
- ระบบ ROCm รองรับการทำงานทั้งแบบใช้ GPU เดียวและหลายตัวพร้อมกันผ่าน Hugging Face Accelerate [4]
- ต้องตั้งค่าตัวแปร HSA_OVERRIDE_GFX_VERSION=9.4.2 เพื่อใช้ Unsloth กับ AMD MI300X [5]
บทสรุปข่าว: กำแพง CUDA กำลังสั่นคลอนจากการทดสอบบน AMD ROCm 7
การพัฒนาระบบปัญญาประดิษฐ์ (AI) ในระยะหลังมักถูกมองว่าผูกขาดด้วยระบบนิเวศของ NVIDIA และเทคโนโลยี CUDA ซึ่งเป็นมาตรฐานที่นักพัฒนาต้องพึ่งพา แต่ข่าวล่าสุดจากการทดสอบการปรับแต่งโมเดลภาษาขนาดใหญ่ (LLM) บนฮาร์ดแวร์ของ AMD กลับเปิดโอกาสใหม่ที่น่าสนใจ โดยไม่ต้องพึ่งพาเทคโนโลยีที่ซับซ้อนอย่าง CUDA อีกต่อไป
ความสำเร็จในการฝึกโมเดลบน AMD MI325X
เมื่อต้นปี 2026 มีรายงานการทดสอบที่ประสบความสำเร็จอย่างน่าประทับใจ โดยนักวิจัยสามารถนำโมเดล Liquid AI รุ่น LFM2.5-1.2B-Instruct ไปฝึกฝน (Fine-tuning) บนชิป AMD MI325X ได้สำเร็จ [1] สิ่งที่น่าทึ่งที่สุดคือกระบวนการนี้ไม่ได้ใช้โค้ดเสริมเฉพาะทาง (custom kernels) หรือเวอร์ชันดัดแปลงของไลบรารีใดๆ แต่ใช้เพียงไลบรารีมาตรฐานอย่าง PyTorch และ Hugging Face ที่ทำงานบนระบบปฏิบัติการ ROCm 7 [1]
ความสำเร็จนี้มีความหมายสำคัญมาก เพราะมันชี้ให้เห็นว่าฮาร์ดแวร์ของ AMD อย่าง MI325X มีสมรรถนะที่เทียบเท่ากับ NVIDIA A100 และ GH200 ในสเปกที่ใกล้เคียงกัน [1] การที่โมเดลทำงานได้ลื่นไหลบนซอฟต์แวร์มาตรฐาน แสดงให้เห็นว่าช่องว่างด้านประสิทธิภาพระหว่าง AMD และ NVIDIA ไม่ได้ห่างไกลเหมือนในอดีต
ทำไม NVIDIA ถึงยังนำอยู่? ไม่ใช่แค่ความเร็วของชิป
แม้ฮาร์ดแวร์ของ AMD จะแข็งแกร่งขึ้น แต่ NVIDIA ยังคงมีจุดแข็งที่ชัดเจนในแง่ของ ‘ซอฟต์แวร์’ ไม่ใช่แค่ความเร็วของตัวชิป ข้อได้เปรียบของ NVIDIA มาจากชุดเครื่องมือ (tooling) และไลบรารีขั้นสูงอย่าง PTX bytecode ที่ช่วยในการพอร์ตโค้ด รวมถึงไลบรารีประมวลผลกราฟิกอย่าง cuBLAS, cuDNN และ NCCL ที่ได้รับการพัฒนาและปรับแต่งมานานหลายปี [1]
นี่คือสิ่งที่เรียกว่า ‘กำแพงซอฟต์แวร์’ (Software Moat) ซึ่งการสร้างให้เทียบเท่า CUDA ไม่ใช่เรื่องของการสร้างชิปให้เร็วขึ้นเพียงอย่างเดียว แต่ต้องใช้เวลาในการพัฒนาซอฟต์แวร์ให้รองรับการใช้งานที่หลากหลายและเสถียรที่สุด [1]
สถานะปัจจุบันของระบบ ROCm สำหรับนักพัฒนา
ปัจจุบัน AMD ได้พัฒนาเอกสารและคู่มือสำหรับนักพัฒนา AI อย่างครอบคลุมมากขึ้น โดยผ่านโครงการ AMD AI Developer Hub ซึ่งจัดเตรียม Jupyter Notebook สำหรับสอนทั้งการฝึกโมเดล การปรับแต่ง และการนำโมเดลไปใช้งานจริง (Inference) [2]
ระบบ ROCm ในเวอร์ชันล่าสุดรองรับการทำงานทั้งแบบใช้ GPU ตัวเดียว และแบบใช้หลายตัวพร้อมกัน (Multi-accelerator) ซึ่งช่วยให้สามารถขยายขนาดการคำนวณได้มากขึ้น [3] นอกจากนี้ ยังมีการผสานรวม Hugging Face Accelerate เข้ากับ Transformers เพื่อให้นักพัฒนาสามารถเขียนโค้ด PyTorch ให้ทำงานบน GPU หลายตัวได้ง่ายขึ้น [4]
สำหรับนักพัฒนาที่ใช้งาน Unsloth ซึ่งเป็นเครื่องมือช่วยฝึกโมเดลให้เร็วขึ้น มีคำแนะนำเฉพาะสำหรับการตั้งค่าบน AMD MI300X โดยต้องกำหนดค่าตัวแปรสภาพแวดล้อม (Environment Variable) ชื่อว่า HSA_OVERRIDE_GFX_VERSION=9.4.2 เพื่อให้ระบบทำงานได้ถูกต้อง [5]
ความท้าทายที่ยังเหลืออยู่: งาน Inference และเทคนิคขั้นสูง
แม้ว่าการฝึกโมเดล (Training) จะก้าวหน้าไปมาก แต่การนำโมเดลไปใช้งานจริง (Inference) ยังมีความท้าทายอยู่ โดยเฉพาะเทคนิคขั้นสูงอย่าง Speculative decoding หรือการใช้ไลบรารีประมวลผลความสนใจ (Attention) แบบเฉพาะทางอย่าง FlashAttention และ PagedAttention ซึ่งบนระบบ ROCm ยังมีความล่าช้ากว่า CUDA อยู่ [1]
อย่างไรก็ตาม AMD ก็กำลังพัฒนาเทคนิคเพื่อแก้ไขจุดนี้ เช่น การลดขนาดข้อมูล (Quantization) การปรับแต่งไลบรารี Kernel และการใช้ไลบรารีอย่าง Flash Attention และ xFormers เพื่อเพิ่มความเร็วในการประมวลผล [7]
MedQA: Benchmark การแพทย์ที่ ‘ทำคะแนนเต็ม’ แล้ว
ในส่วนของ AI ด้านการแพทย์ มีข่าวที่น่าสนใจว่า Benchmark ชื่อ MedQA ซึ่งใช้วัดความสามารถของโมเดลในการตอบคำถามทางการแพทย์ ได้ถูกประกาศปิดตัวลง (Archived) แล้ว [8] สาเหตุคือโมเดลรุ่นใหม่ๆ ทำคะแนนได้สูงเกิน 95% ไปแล้วเกือบทั้งหมด ทำให้ Benchmark นี้ไม่สามารถแยกความแตกต่างของโมเดลได้อีกต่อไป [8]
โมเดลที่ทำคะแนนสูงสุดก่อนหน้านี้ ได้แก่ o1 ที่ 96.52%, GPT 5.1 ที่ 96.38% และ Gemini 3.1 Pro Preview ที่ 96.37% [8] การที่ MedQA ถูกปิดตัวลงสะท้อนให้เห็นว่า AI ด้านการแพทย์กำลังเข้าใกล้ความเป็นมนุษย์มากขึ้น และนักวิจัยจำเป็นต้องมองหา Benchmark แบบใหม่ที่มีความท้าทายยิ่งขึ้น
สรุปภาพรวม
การพัฒนาของ AMD ROCm 7 ในครั้งนี้ เป็นสัญญาณที่ดีสำหรับนักพัฒนาที่ต้องการทางเลือกอื่นนอกเหนือจาก NVIDIA การที่โมเดลสามารถฝึกได้บนฮาร์ดแวร์ AMD ด้วยซอฟต์แวร์มาตรฐาน แสดงให้เห็นว่าระบบนิเวศของ AMD กำลังเติบโตอย่างมั่นคง แม้ว่าจะยังมีช่องว่างในบางเทคนิคขั้นสูง แต่แนวโน้มในอนาคตชี้ให้เห็นว่าคู่แข่งด้านฮาร์ดแวร์และซอฟต์แวร์สำหรับ AI กำลังมีความเข้มแข็งขึ้นเรื่อยๆ
Sources
- Fine-tuning LLMs on AMD without CUDA | Mathias Lechner posted on the topic | LinkedIn (www.linkedin.com) — 2026-02-10
- Tutorials for AI developers (rocm.docs.amd.com) — 2026-01-01
- Fine-tuning and inference (rocm.docs.amd.com) — 2026-01-28
- Fine-tuning and inference using multiple accelerators (rocm.docs.amd.com) — 2024-09-12
- Fine-tuning LLMs on AMD GPUs with Unsloth Guide | Unsloth Documentation (unsloth.ai) — 2026-05-07
- Use ROCm for AI inference optimization (rocm.docs.amd.com) — 2026-01-28
- Vals AI (www.vals.ai) — 2026-04-16