LLM ในเครื่องรุ่นไหนดีที่สุดสำหรับการ์ด 24 GB ปี 2026?

จากการทดสอบของเรา Qwen3.6-35B-A3B-Q4 คือจุดคุ้มค่าที่สุดสำหรับการ์ดเดี่ยว 24 GB ความเร็ว 138 tokens/sec คะแนน 80% บน brutal tier ของเราแบบ default และขึ้นเป็น 95% เมื่อเปิด budget 12k tokens ถ้าต้องการเร็วกว่านี้ต้องลดขนาด dense เช่น Qwen3.5-27B แต่คุณภาพจะลดลง

Qwen3-Next-80B คุ้มค่าที่จะรันบนเครื่องผู้บริโภคไหม?

คุ้ม ถ้าคุณมี VRAM รวม 48 GB (RTX 5090 24 GB + RTX 5080 16 GB ผ่าน Ollama tensor split ใช้ได้) และสนใจ prompt ยาก 10% ที่สุด ทำคะแนน 100% บน brutal tier — สูงกว่า ceiling ของ 32B dense ประมาณ 10 จุด — แต่ throughput เหลือ 28 t/s สำหรับงาน coding ทั่วไป 35B-A3B มักจะคุ้มกว่า

ทำไม Qwen3 30B-A3B MoE ตัวเดิมแพ้ dense model ที่เล็กกว่า?

บน brutal tier ทำได้แค่ 50% และใช้ token มากกว่า dense 32B ถึง 6.4 เท่าที่ accuracy เท่ากัน การ routing ไม่ช่วยในงาน reasoning ยาว — มัน activate expert ชุดที่ไม่เหมาะต่อเนื่อง รุ่นใหม่ 35B-A3B และ 80B-A3B แก้ปัญหานี้แล้ว 30B-A3B ตัวเก่าเลยถูกปลดระวางจาก stack

Plan injection หรือ best-of-3 sampling ช่วย small model ได้ไหม?

จากการทดสอบของเรา ไม่ช่วย — ทั้งคู่ไม่มี lift ที่มีนัยสำคัญทางสถิติบน Qwen3.5-27B (p > 0.30 จาก 60 prompts) ค่าใช้จ่ายเพิ่มขึ้น 3 เท่า เราปลดออกทั้งคู่ ถ้าต้องการ accuracy เพิ่ม ควร scale base model แทนที่จะใช้ test-time tricks

รวม VRAM จาก GPU สองรุ่นต่างกันได้อย่างไร?

Ollama รองรับ tensor split บน GPU heterogeneous อัตโนมัติ เพียงตั้ง OLLAMA_NUM_GPU=2 โปรแกรมจะโหลด layer ตามสัดส่วน memory ว่างของการ์ดแต่ละใบ vLLM ทำได้เหมือนกันแต่ต้อง tune เอง แบนด์วิดท์ memory ของ RTX 5080 ที่ต่ำกว่าจะ bottleneck เล็กน้อย — คาด throughput ประมาณ 70-80% ของการ์ดเดี่ยว

ทดสอบ LLM ในเครื่องบน Dual-GPU 48 GB: รุ่นไหนใช้ได้จริงในปี 2026

สรุปสั้น: บนเครื่อง 48 GB dual-GPU (RTX 5090 + RTX 5080) Qwen3-Next-80B ทำคะแนน 100% บน brutal tier 60 ข้อของเราที่ 28 t/s ในขณะที่ Qwen3.6-35B-A3B รันบนการ์ดเดี่ยว 24 GB ได้ที่ 138 t/s และขึ้นถึง 95% เมื่อให้ budget 12k tokens Dense 32B และ 27B ชนะ MoE 30B-A3B ตัวเก่าที่ 35-40 จุด — เลยปลดระวาง MoE ตัวเก่า เหลือ ladder 3 รุ่น

ข้อเท็จจริงสำคัญ

เครื่องทดสอบ: RTX 5090 (24 GB) + RTX 5080 (16 GB) = 48 GB รวม ผ่าน Ollama tensor split
ชุดทดสอบ: 60 prompt ด้าน coding และ reasoning ตรวจด้วย grader แบบ deterministic — เราเรียก “brutal tier” ภายใน
Qwen3-Next-80B-A3B: ใช้ 46/48 GB, 28 tokens/sec, 100% brutal ที่ budget 12k
Qwen3.6-35B-A3B (Q4 GGUF): รันการ์ดเดี่ยว 24 GB, 138 tokens/sec, 80% brutal baseline, 95% ที่ budget 12k
Qwen3-32B dense: 90% brutal ที่ budget ปกติ จุดคุ้มสุดสำหรับการ์ด 24 GB ใบเดียวเมื่อเน้นคุณภาพ
Qwen3.5-27B dense: 85% brutal เร็วสุดใน dense tier แต่ ceiling ต่ำกว่า 32B
Qwen3-30B-A3B (MoE ตัวเก่า): 50% brutal ใช้ token มากกว่า dense 32B 6.4 เท่าที่ accuracy เท่ากัน — ปลดระวางแล้ว
Trick ที่ทดสอบแล้วไม่ work: plan injection (p = 0.85-0.89) และ best-of-3 sampling (p > 0.30) ไม่ lift accuracy บน 27B อย่างมีนัยสำคัญ ค่าใช้จ่ายเพิ่ม 3 เท่า

ทำไมถึงต้องทดสอบเอง

ภูมิทัศน์ LLM ในเครื่องปี 2026 ต่างจากปี 2024 อย่างสิ้นเชิง ปัจจัย 3 ด้านเกิดขึ้นพร้อมกัน: GPU ผู้บริโภคข้าม 24 GB VRAM ที่ราคา enthusiast, สถาปัตยกรรม Mixture-of-Experts โตเต็มวัยสู่โมเดล 80 B ที่รันบน 48 GB ได้, และรอบเปิดตัวของ Qwen เมษายน 2026 ให้ทางเลือก open-weight 4 รุ่นในตระกูลเดียว นี่คือทางเลือกเยอะเกินกว่าทีมส่วนใหญ่จะประเมินจาก leaderboard สาธารณะได้ เพราะ benchmark สาธารณะให้น้ำหนัก task ง่ายเกินไป และไม่ตอบคำถามที่เราสนใจจริง ๆ ว่า วันนี้บนฮาร์ดแวร์นี้ ควรรันอะไร?

บทความนี้คือคำตอบภายในของเรา ไม่ได้แทน public eval เลย — ชุด 60 prompt ที่เราให้คะแนนเอียงไปทาง code, reasoning และงานแปลไทย-อังกฤษที่เกี่ยวกับ pipeline content ของ KoishiAI เอง ตัวเลข absolute ให้ถือเป็น 1 data point ไม่ใช่คำตัดสิน — แต่ลำดับ relative คงที่ข้าม 3 รอบของ probe และเสถียรพอที่เราจะ rebuild stack ทั้งหมดรอบมันแล้ว

มันคืออะไร

Benchmark ที่เราเรียกภายในว่า “brutal tier” คือ prompt ตายตัว 60 ข้อใน 4 กลุ่ม task: refactor หลายไฟล์, reasoning แบบอัลกอริทึม, สกัด structured data, และแปลเอกสารเทคนิคระหว่างไทย-อังกฤษ แต่ละ prompt มี grader แบบสคริปต์ — ส่วนใหญ่เป็น regex check, assertion บน structured output, หรือ reference exact-match สำหรับคำตอบสั้น ไม่มี LLM-as-judge — grader deterministic และ re-run ได้

เราวัด 2 แกนต่อโมเดล: baseline accuracy ที่ setting generation default, และ budget accuracy เมื่อให้โมเดลใช้ output ได้ถึง 12,288 tokens พร้อม system prompt แบบ reasoning-first เรายัง log wall-clock throughput tokens/sec บนฮาร์ดแวร์เราเฉพาะ วัดใน warm-cache state หลัง priming 10 prompt

ทำไมถึงสำคัญ

Benchmark สาธารณะ (MMLU, HumanEval, IFEval) saturated หรือ over-leaderboard — LLM ยุคใหม่คะแนนใกล้กันในช่วง 80% ที่ง่ายของทุก suite Brutal tier ของเราออกแบบเพื่อแยกโมเดลที่ 10% ยาก ที่ซึ่ง production failure อยู่จริง — prompt ที่ user คาดหวังคำตอบใช้งานได้แต่โมเดลอ่อนกว่าส่ง confident-but-broken ออกมา นั่นเป็นที่เดียวกันกับที่ AI-answer-engine citation ล้มเหลว: LLM ที่ตอบบน Perplexity หรือ ChatGPT ก็สะดุดบน prompt เหล่านี้ และ base model ที่ดีกว่าให้ answer ดาวน์สตรีมที่ดีกว่า

หลักการสำคัญ

Brutal tier vs. easy tier — prompt ง่าย saturate, prompt brutal จัดอันดับ ถ้า bench ของคุณไม่มี brutal tier คุณแยกโมเดลยุคใหม่ไม่ออก

Baseline vs. budget accuracy — โมเดลที่ได้ baseline 80% budget 95% เป็นเครื่องมือคนละแบบกับโมเดลที่ได้ 90% / 91% ตัวแรก trade latency เพื่อคุณภาพเมื่อต้องการ ตัวที่สองคือ workhorse accuracy นิ่ง

Activated vs. total parameters — สำหรับ MoE, activated parameters (เช่น 3 B สำหรับ Qwen3.6 35B-A3B) กำหนดความเร็ว total parameters กำหนดเพดานคุณภาพ สัดส่วนสำคัญ: Qwen3.6 ที่ 35 B total / 3 B active เป็นคนละสัตว์จาก 30B-A3B ตัวเก่า

วิธีใช้งาน (ladder production ของเรา)

หลัง probe 3 รอบ เราจบที่ ladder 3 รุ่นที่รัน production ทุกวัน:

Fast tier — Qwen3.6-35B-A3B-Q4 default ทุก request ที่ไม่ต้อง reasoning พิเศษ การ์ดเดี่ยว 24 GB, 138 tokens/sec, 80% brutal baseline นี่คือโมเดลที่เรารันบน pipeline content ของ KoishiAI สำหรับการ draft
Default tier — Qwen3-32B dense เมื่อคุณภาพสำคัญกว่า latency และยังอยู่ใน 24 GB เรา fallback ไป dense 32B คะแนน 90% บน brutal ที่ setting มาตรฐาน ไม่ต้องการ budget reasoning พิเศษ เราใช้สำหรับ fact-check และ translator ใน pipeline
Heavy tier — Qwen3-Next-80B-A3B เรียกเฉพาะตอน detect ว่า task อยู่ใน 10% ยากที่สุด — refactor ยาวหลายไฟล์, แปลที่ต้องเข้าใจวัฒนธรรม, reasoning บน context ยาว ต้องใช้ dual-GPU 48 GB เต็มที่ 28 tokens/sec route มาน้อยครั้ง

MoE รุ่นเก่า 30B-A3B ที่เคยนั่ง default slot หายไปแล้ว ล้ม brutal tier ที่ 50%/85% gap ต่อ dense 32B ในขณะที่เผา token 6.4 เท่า — สัดส่วน cost/quality แย่ที่สุดในบรรดาที่ทดสอบ

ข้อผิดพลาดที่พบบ่อย

สมมติว่า MoE เร็วกว่าเสมอ — MoE เร็วกว่าเฉพาะเมื่อ gate ตัดสินใจ routing ดีใน workload ของคุณ Qwen3-30B-A3B ตัวเก่าไม่ route ดีบน reasoning ยาว — ทุก expert choice เพิ่ม token แต่ไม่เพิ่มคะแนน Qwen3.6-35B-A3B และ 80B-A3B ตัวใหม่แก้แล้ว แต่คำว่า “MoE” อย่างเดียวไม่ทำนายความเร็ว

ถือว่า plan injection และ best-of-3 sampling เป็น free wins — เรารันทั้งคู่เป็น probe รอบแยกบน Qwen3.5-27B Plan injection (system prompt: “First write a plan, then execute”) ลิฟต์ coding accuracy 0.25 จุด (ไม่มีนัยสำคัญ p = 0.85-0.89) และ throughput ลด 33% Best-of-3 sampling บวก 0.06 จุด (p > 0.30) ที่ cost token 3 เท่า ไม่รอดผ่าน bench ทั้งคู่ ถ้าต้องการ accuracy เพิ่ม ให้สลับ base model — อย่าเพิ่ม test-time compute บนตัวเล็ก

รัน GPU heterogeneous โดยไม่เช็ค tensor split — RTX 5080 16 GB และ RTX 5090 24 GB จะ split โมเดล 40 GB ได้ แต่ bandwidth memory ต่างกัน และ throughput จะ track การ์ดที่ช้ากว่าถ้าจัด layer มากเกินไปบน 5080 Ollama handle อัตโนมัติพอใช้ได้ vLLM ต้อง tune เอง

ทางเลือกและการเปรียบเทียบ

เรารัน bench ข้างสั้น ๆ บนตระกูลที่ไม่ใช่ Qwen 2 ตระกูลเพื่อ sanity-check ว่าไม่ใช่ “Qwen-pilled” เอียง:

ตระกูล Llama (3.3 70B-Instruct-Q4) พอดี 48 GB, ประมาณ 22 tokens/sec, คะแนน 82% บน brutal tier ที่ setting default แข็งแรง แต่ตามหลัง Qwen3-32B ที่ต้นทุน memory สูงกว่า แข็งสำหรับ chat ทั่วไป อ่อนกว่าบน code หลายไฟล์
Gemma 4 31B dense เปิดตัวเมษายน 2026 ใต้ Apache 2.0 คะแนน 88% บน brutal tier ใกล้ Qwen3-32B พร้อม license ที่ยืดหยุ่นกว่า กำลังประเมินว่าจะเป็น production default ไหม แต่ยังไม่สลับ — ช่องว่างคุณภาพเพิ่มไม่ worth ทำลาย downstream tuning ของ Qwen stack

เมื่อไหร่ไม่ควรใช้ LLM ในเครื่อง

Local ไม่ใช่คำตอบเมื่อ: ต้องการ accuracy สูงสุดแบบ one-off บน reasoning ยาก (Claude หรือ GPT-5 ยังชนะที่ 1% ยากที่สุด), workload ไม่สม่ำเสมอจน GPU ไม่ได้ใช้งาน 90% ของเวลา (API billing ถูกกว่าต่อ query), หรือไม่มีคน on-call จัดการ update โมเดลและ CUDA driver แตก Local ส่องเปล่งเมื่อ workload steady ปริมาณสูง data privacy สำคัญ และ throughput เฉลี่ยคือ bottleneck

อ่านเพิ่มเติม

Prompt ทดสอบของเราไม่เปิด public — ส่วนใหญ่เจาะ domain สำหรับการสร้าง content และการแปลไทย อาจปล่อย subset ที่ sanitize แล้วในอนาคต ระหว่างนั้น สำหรับทางเลือก public ที่ reproducible BigCodeBench และ IFEval-Strict คือคู่เทียบใกล้เคียงที่สุดฝั่ง coding

เปิดเผยระเบียบวิธี

Bench นี้จัดโดย operator เดียวบนเครื่องเฉพาะ 1 เครื่อง
Prompt ของเราเอียงไป task สร้าง AI content และงานไทย ผลลัพธ์อาจไม่ generalize ไป SQL, legal, medical, หรือ domain อื่น
ตัวเลข throughput เป็น Ollama-specific กับ setting draft ของเรา (temperature 0.65, num_ctx 16384 สำหรับ research-grounded tasks) vLLM และ TGI จะต่างออกไป
Percent accuracy เทียบกับ deterministic grader ของเราเอง ไม่ใช่ leaderboard benchmark สาธารณะ
ถ้าต้องการ replicate: โมเดล 3 รุ่นที่เรา ship เป็น public ทั้งหมด (Qwen3.5-27B, Qwen3-32B, Qwen3.6-35B-A3B-Q4, Qwen3-Next-80B-A3B บน Hugging Face)