ทดสอบ LLM ในเครื่องบน Dual-GPU 48 GB: รุ่นไหนใช้ได้จริงในปี 2026
เราทดสอบ Qwen3 27B, 32B, 35B-A3B, และ 80B บนเครื่อง RTX 5090 + 5080 ของเราเอง เพื่อหาจุดคุ้มค่าจริงสำหรับรัน AI ในเครื่องปี 2026 นี่คือรุ่นที่เราเก็บไว้ใช้ — และรุ่นที่ปลดระวาง
สรุปสั้น: บนเครื่อง 48 GB dual-GPU (RTX 5090 + RTX 5080) Qwen3-Next-80B ทำคะแนน 100% บน brutal tier 60 ข้อของเราที่ 28 t/s ในขณะที่ Qwen3.6-35B-A3B รันบนการ์ดเดี่ยว 24 GB ได้ที่ 138 t/s และขึ้นถึง 95% เมื่อให้ budget 12k tokens Dense 32B และ 27B ชนะ MoE 30B-A3B ตัวเก่าที่ 35-40 จุด — เลยปลดระวาง MoE ตัวเก่า เหลือ ladder 3 รุ่น
ข้อเท็จจริงสำคัญ
- เครื่องทดสอบ: RTX 5090 (24 GB) + RTX 5080 (16 GB) = 48 GB รวม ผ่าน Ollama tensor split
- ชุดทดสอบ: 60 prompt ด้าน coding และ reasoning ตรวจด้วย grader แบบ deterministic — เราเรียก “brutal tier” ภายใน
- Qwen3-Next-80B-A3B: ใช้ 46/48 GB, 28 tokens/sec, 100% brutal ที่ budget 12k
- Qwen3.6-35B-A3B (Q4 GGUF): รันการ์ดเดี่ยว 24 GB, 138 tokens/sec, 80% brutal baseline, 95% ที่ budget 12k
- Qwen3-32B dense: 90% brutal ที่ budget ปกติ จุดคุ้มสุดสำหรับการ์ด 24 GB ใบเดียวเมื่อเน้นคุณภาพ
- Qwen3.5-27B dense: 85% brutal เร็วสุดใน dense tier แต่ ceiling ต่ำกว่า 32B
- Qwen3-30B-A3B (MoE ตัวเก่า): 50% brutal ใช้ token มากกว่า dense 32B 6.4 เท่าที่ accuracy เท่ากัน — ปลดระวางแล้ว
- Trick ที่ทดสอบแล้วไม่ work: plan injection (p = 0.85-0.89) และ best-of-3 sampling (p > 0.30) ไม่ lift accuracy บน 27B อย่างมีนัยสำคัญ ค่าใช้จ่ายเพิ่ม 3 เท่า
ทำไมถึงต้องทดสอบเอง
ภูมิทัศน์ LLM ในเครื่องปี 2026 ต่างจากปี 2024 อย่างสิ้นเชิง ปัจจัย 3 ด้านเกิดขึ้นพร้อมกัน: GPU ผู้บริโภคข้าม 24 GB VRAM ที่ราคา enthusiast, สถาปัตยกรรม Mixture-of-Experts โตเต็มวัยสู่โมเดล 80 B ที่รันบน 48 GB ได้, และรอบเปิดตัวของ Qwen เมษายน 2026 ให้ทางเลือก open-weight 4 รุ่นในตระกูลเดียว นี่คือทางเลือกเยอะเกินกว่าทีมส่วนใหญ่จะประเมินจาก leaderboard สาธารณะได้ เพราะ benchmark สาธารณะให้น้ำหนัก task ง่ายเกินไป และไม่ตอบคำถามที่เราสนใจจริง ๆ ว่า วันนี้บนฮาร์ดแวร์นี้ ควรรันอะไร?
บทความนี้คือคำตอบภายในของเรา ไม่ได้แทน public eval เลย — ชุด 60 prompt ที่เราให้คะแนนเอียงไปทาง code, reasoning และงานแปลไทย-อังกฤษที่เกี่ยวกับ pipeline content ของ KoishiAI เอง ตัวเลข absolute ให้ถือเป็น 1 data point ไม่ใช่คำตัดสิน — แต่ลำดับ relative คงที่ข้าม 3 รอบของ probe และเสถียรพอที่เราจะ rebuild stack ทั้งหมดรอบมันแล้ว
มันคืออะไร
Benchmark ที่เราเรียกภายในว่า “brutal tier” คือ prompt ตายตัว 60 ข้อใน 4 กลุ่ม task: refactor หลายไฟล์, reasoning แบบอัลกอริทึม, สกัด structured data, และแปลเอกสารเทคนิคระหว่างไทย-อังกฤษ แต่ละ prompt มี grader แบบสคริปต์ — ส่วนใหญ่เป็น regex check, assertion บน structured output, หรือ reference exact-match สำหรับคำตอบสั้น ไม่มี LLM-as-judge — grader deterministic และ re-run ได้
เราวัด 2 แกนต่อโมเดล: baseline accuracy ที่ setting generation default, และ budget accuracy เมื่อให้โมเดลใช้ output ได้ถึง 12,288 tokens พร้อม system prompt แบบ reasoning-first เรายัง log wall-clock throughput tokens/sec บนฮาร์ดแวร์เราเฉพาะ วัดใน warm-cache state หลัง priming 10 prompt
ทำไมถึงสำคัญ
Benchmark สาธารณะ (MMLU, HumanEval, IFEval) saturated หรือ over-leaderboard — LLM ยุคใหม่คะแนนใกล้กันในช่วง 80% ที่ง่ายของทุก suite Brutal tier ของเราออกแบบเพื่อแยกโมเดลที่ 10% ยาก ที่ซึ่ง production failure อยู่จริง — prompt ที่ user คาดหวังคำตอบใช้งานได้แต่โมเดลอ่อนกว่าส่ง confident-but-broken ออกมา นั่นเป็นที่เดียวกันกับที่ AI-answer-engine citation ล้มเหลว: LLM ที่ตอบบน Perplexity หรือ ChatGPT ก็สะดุดบน prompt เหล่านี้ และ base model ที่ดีกว่าให้ answer ดาวน์สตรีมที่ดีกว่า
หลักการสำคัญ
Brutal tier vs. easy tier — prompt ง่าย saturate, prompt brutal จัดอันดับ ถ้า bench ของคุณไม่มี brutal tier คุณแยกโมเดลยุคใหม่ไม่ออก
Baseline vs. budget accuracy — โมเดลที่ได้ baseline 80% budget 95% เป็นเครื่องมือคนละแบบกับโมเดลที่ได้ 90% / 91% ตัวแรก trade latency เพื่อคุณภาพเมื่อต้องการ ตัวที่สองคือ workhorse accuracy นิ่ง
Activated vs. total parameters — สำหรับ MoE, activated parameters (เช่น 3 B สำหรับ Qwen3.6 35B-A3B) กำหนดความเร็ว total parameters กำหนดเพดานคุณภาพ สัดส่วนสำคัญ: Qwen3.6 ที่ 35 B total / 3 B active เป็นคนละสัตว์จาก 30B-A3B ตัวเก่า
วิธีใช้งาน (ladder production ของเรา)
หลัง probe 3 รอบ เราจบที่ ladder 3 รุ่นที่รัน production ทุกวัน:
-
Fast tier — Qwen3.6-35B-A3B-Q4 default ทุก request ที่ไม่ต้อง reasoning พิเศษ การ์ดเดี่ยว 24 GB, 138 tokens/sec, 80% brutal baseline นี่คือโมเดลที่เรารันบน pipeline content ของ KoishiAI สำหรับการ draft
-
Default tier — Qwen3-32B dense เมื่อคุณภาพสำคัญกว่า latency และยังอยู่ใน 24 GB เรา fallback ไป dense 32B คะแนน 90% บน brutal ที่ setting มาตรฐาน ไม่ต้องการ budget reasoning พิเศษ เราใช้สำหรับ fact-check และ translator ใน pipeline
-
Heavy tier — Qwen3-Next-80B-A3B เรียกเฉพาะตอน detect ว่า task อยู่ใน 10% ยากที่สุด — refactor ยาวหลายไฟล์, แปลที่ต้องเข้าใจวัฒนธรรม, reasoning บน context ยาว ต้องใช้ dual-GPU 48 GB เต็มที่ 28 tokens/sec route มาน้อยครั้ง
MoE รุ่นเก่า 30B-A3B ที่เคยนั่ง default slot หายไปแล้ว ล้ม brutal tier ที่ 50%/85% gap ต่อ dense 32B ในขณะที่เผา token 6.4 เท่า — สัดส่วน cost/quality แย่ที่สุดในบรรดาที่ทดสอบ
ข้อผิดพลาดที่พบบ่อย
สมมติว่า MoE เร็วกว่าเสมอ — MoE เร็วกว่าเฉพาะเมื่อ gate ตัดสินใจ routing ดีใน workload ของคุณ Qwen3-30B-A3B ตัวเก่าไม่ route ดีบน reasoning ยาว — ทุก expert choice เพิ่ม token แต่ไม่เพิ่มคะแนน Qwen3.6-35B-A3B และ 80B-A3B ตัวใหม่แก้แล้ว แต่คำว่า “MoE” อย่างเดียวไม่ทำนายความเร็ว
ถือว่า plan injection และ best-of-3 sampling เป็น free wins — เรารันทั้งคู่เป็น probe รอบแยกบน Qwen3.5-27B Plan injection (system prompt: “First write a plan, then execute”) ลิฟต์ coding accuracy 0.25 จุด (ไม่มีนัยสำคัญ p = 0.85-0.89) และ throughput ลด 33% Best-of-3 sampling บวก 0.06 จุด (p > 0.30) ที่ cost token 3 เท่า ไม่รอดผ่าน bench ทั้งคู่ ถ้าต้องการ accuracy เพิ่ม ให้สลับ base model — อย่าเพิ่ม test-time compute บนตัวเล็ก
รัน GPU heterogeneous โดยไม่เช็ค tensor split — RTX 5080 16 GB และ RTX 5090 24 GB จะ split โมเดล 40 GB ได้ แต่ bandwidth memory ต่างกัน และ throughput จะ track การ์ดที่ช้ากว่าถ้าจัด layer มากเกินไปบน 5080 Ollama handle อัตโนมัติพอใช้ได้ vLLM ต้อง tune เอง
ทางเลือกและการเปรียบเทียบ
เรารัน bench ข้างสั้น ๆ บนตระกูลที่ไม่ใช่ Qwen 2 ตระกูลเพื่อ sanity-check ว่าไม่ใช่ “Qwen-pilled” เอียง:
- ตระกูล Llama (3.3 70B-Instruct-Q4) พอดี 48 GB, ประมาณ 22 tokens/sec, คะแนน 82% บน brutal tier ที่ setting default แข็งแรง แต่ตามหลัง Qwen3-32B ที่ต้นทุน memory สูงกว่า แข็งสำหรับ chat ทั่วไป อ่อนกว่าบน code หลายไฟล์
- Gemma 4 31B dense เปิดตัวเมษายน 2026 ใต้ Apache 2.0 คะแนน 88% บน brutal tier ใกล้ Qwen3-32B พร้อม license ที่ยืดหยุ่นกว่า กำลังประเมินว่าจะเป็น production default ไหม แต่ยังไม่สลับ — ช่องว่างคุณภาพเพิ่มไม่ worth ทำลาย downstream tuning ของ Qwen stack
เมื่อไหร่ไม่ควรใช้ LLM ในเครื่อง
Local ไม่ใช่คำตอบเมื่อ: ต้องการ accuracy สูงสุดแบบ one-off บน reasoning ยาก (Claude หรือ GPT-5 ยังชนะที่ 1% ยากที่สุด), workload ไม่สม่ำเสมอจน GPU ไม่ได้ใช้งาน 90% ของเวลา (API billing ถูกกว่าต่อ query), หรือไม่มีคน on-call จัดการ update โมเดลและ CUDA driver แตก Local ส่องเปล่งเมื่อ workload steady ปริมาณสูง data privacy สำคัญ และ throughput เฉลี่ยคือ bottleneck
อ่านเพิ่มเติม
Prompt ทดสอบของเราไม่เปิด public — ส่วนใหญ่เจาะ domain สำหรับการสร้าง content และการแปลไทย อาจปล่อย subset ที่ sanitize แล้วในอนาคต ระหว่างนั้น สำหรับทางเลือก public ที่ reproducible BigCodeBench และ IFEval-Strict คือคู่เทียบใกล้เคียงที่สุดฝั่ง coding
เปิดเผยระเบียบวิธี
- Bench นี้จัดโดย operator เดียวบนเครื่องเฉพาะ 1 เครื่อง
- Prompt ของเราเอียงไป task สร้าง AI content และงานไทย ผลลัพธ์อาจไม่ generalize ไป SQL, legal, medical, หรือ domain อื่น
- ตัวเลข throughput เป็น Ollama-specific กับ setting draft ของเรา (temperature 0.65, num_ctx 16384 สำหรับ research-grounded tasks) vLLM และ TGI จะต่างออกไป
- Percent accuracy เทียบกับ deterministic grader ของเราเอง ไม่ใช่ leaderboard benchmark สาธารณะ
- ถ้าต้องการ replicate: โมเดล 3 รุ่นที่เรา ship เป็น public ทั้งหมด (Qwen3.5-27B, Qwen3-32B, Qwen3.6-35B-A3B-Q4, Qwen3-Next-80B-A3B บน Hugging Face)