AgentFloor: โมเดลเล็ก Open-Weight ทำงาน Agent เทียบเท่า GPT-5
AgentFloor ชี้โมเดลเล็ก Open-Weight ทำงาน Agent เทียบเท่า GPT-5 ในราคาที่ถูกกว่ามาก พร้อมทดสอบ 30 tasks และ 16K runs
สรุปสั้น: งานวิจัย AgentFloor จาก arXiv พบว่าโมเดลขนาดเล็กและขนาดกลางแบบ open-weight สามารถทำงาน Agent ระดับพื้นฐานได้เทียบเท่า GPT-5 ในราคาที่ถูกกว่ามาก งานวิจัยนี้ชี้ให้เห็นว่าโมเดลขนาดเล็กและขนาดกลางแบบ open-weight สามารถทำงาน Agent ระดับพื้นฐานได้เทียบเท่า GPT-5 ในราคาที่ถูกกว่ามาก
ข้อเท็จจริงสำคัญ
- AgentFloor เป็น benchmark แบบ deterministic จำนวน 30 tasks ที่จัดแบ่งเป็น 6 ระดับความสามารถ (capability ladder) [1, 5, 6]
- การทดสอบประเมินโมเดล open-weight จำนวน 16 ตัว (ขนาด 0.27B ถึง 32B parameters) เทียบกับ GPT-5 [1, 6]
- การทดสอบทำไปทั้งหมด 16,542 scored runs [1, 6]
- โมเดล open-weight ที่แข็งแกร่งที่สุดสามารถทำคะแนนรวมบน AgentFloor ได้เทียบเท่า GPT-5 [1, 6]
- โมเดล open-weight มีต้นทุนและเวลาในการรันถูกกว่า GPT-5 อย่างมีนัยสำคัญ [1, 6]
- โมเดล Frontier ยังคงได้เปรียบในงาน long-horizon planning ที่ต้องมีการประสานงานและติดตาม constraints นานๆ [1, 5]
- ไม่มีโมเดลประเภทใดทำ reliability ได้สูงในงาน long-horizon planning [1, 6]
โมเดลเล็กก็ทำ Agent ได้: เมื่อ AgentFloor ชี้ว่า GPT-5 ไม่จำเป็นสำหรับงานทั่วไป
งานวิจัยใหม่จาก arXiv ที่ชื่อว่า “AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?” กำลังท้าทายความเชื่อเดิมในวงการ AI ที่มองว่าโมเดลขนาดใหญ่ระดับ Frontier (เช่น GPT-5 หรือ Claude Opus) จำเป็นต้องมีในทุกขั้นตอนของระบบ Agent [1, 6] งานนี้ชี้ให้เห็นว่าในความเป็นจริง โมเดลขนาดเล็กและขนาดกลางแบบ open-weight สามารถจัดการงาน Agent ส่วนใหญ่ที่มีลักษณะสั้นและโครงสร้างชัดเจนได้ดีพอๆ กับโมเดลยักษ์ใหญ่ แต่ในราคาที่ถูกกว่ามาก [1, 5]
AgentFloor คืออะไร?
AgentFloor ถูกออกแบบมาเพื่อตอบคำถามที่การประเมินโมเดลทั่วไปมักมองข้าม: “ส่วนไหนของ workflow ที่ต้องการความฉลาดระดับ Frontier จริงๆ และส่วนไหนที่โมเดลเล็กทำได้?” [1, 6]
แทนที่จะใช้ benchmark แบบสุ่มหรือวัดแค่ความฉลาดทั่วไป ทีมวิจัยได้สร้างชุดทดสอบแบบ deterministic จำนวน 30 tasks ที่จัดแบ่งเป็น 6 ระดับความสามารถ (capability ladder) ตั้งแต่:
- การปฏิบัติตามคำสั่งพื้นฐาน (Instruction following)
- การใช้เครื่องมือ (Tool use)
- การประสานงานหลายขั้นตอน (Multi-step coordination)
- การวางแผนระยะยาวภายใต้ข้อจำกัดที่คงที่ (Long-horizon planning with persistent constraints)
การออกแบบนี้ช่วยให้เห็นภาพชัดเจนว่า โมเดลเริ่มล้มเหลวหรือทำได้ดีที่สุดตรงจุดไหนในลำดับขั้นของการใช้เครื่องมือ [1, 5]
ผลการทดสอบ: โมเดลเล็กจับคู่ GPT-5 ได้
ในการทดสอบ ทีมวิจัยได้ประเมินโมเดล open-weight จำนวน 16 ตัว ที่มีขนาดตั้งแต่ 0.27 billion parameters ไปจนถึง 32 billion parameters โดยนำผลไปเทียบกับ GPT-5 [1, 6] การทดสอบนี้ทำไปทั้งหมด 16,542 scored runs [1, 6]
ผลลัพธ์ที่น่าสนใจที่สุดคือ: ในภาพรวม (aggregate) โมเดล open-weight ที่แข็งแกร่งที่สุดสามารถทำคะแนนได้เทียบเท่า GPT-5 บน AgentFloor [1, 6] อย่างไรก็ตาม ความได้เปรียบที่สำคัญที่สุดไม่ใช่แค่ความแม่นยำ แต่คือประสิทธิภาพด้านต้นทุนและเวลา: โมเดล open-weight เหล่านี้ถูกกว่าและรันได้เร็วกว่า GPT-5 อย่างมีนัยสำคัญ [1, 6]
นี่สอดคล้องกับแนวโน้มในอุตสาหกรรมที่ระบุว่า โมเดล open-weight กำลังก้าวข้ามขีดจำกัด (crossed a threshold) ในงาน Agent พื้นฐาน เช่น การจัดการไฟล์หรือการใช้เครื่องมือต่างๆ ซึ่งช่วยลด latency และค่าใช้จ่ายได้มหาศาลเมื่อเทียบกับโมเดลปิด (closed models) [8]
ขอบเขตของความแตกต่าง: เมื่อใดที่โมเดลเล็ก “ไม่พอ”?
แม้โมเดลเล็กจะทำได้ดีในงานส่วนใหญ่ แต่ AgentFloor ก็เผยให้เห็น “ขอบเขต” (boundary) ที่ชัดเจน: งาน long-horizon planning ที่ต้องมีการประสานงานอย่างต่อเนื่องและติดตาม constraints ที่ซับซ้อนตลอดหลายขั้นตอน โมเดล Frontier ยังคงทำได้ดีกว่า [1, 5]
อย่างไรก็ตาม งานวิจัยยังชี้ให้เห็นว่า แม้แต่โมเดล Frontier ก็ยังไม่มีความน่าเชื่อถือ (reliability) สูงพอในงานประเภทนี้ [1, 6] นั่นหมายความว่า งานที่ยากที่สุดเหล่านี้ยังคงเป็นความท้าทายสำหรับทุกโมเดลในปัจจุบัน
แนวทาง Hybrid: ใช้โมเดลเล็กให้ถูกจุด
n จากผลการวิจัย นักวิจัยเสนอแนวทางออกแบบระบบ Agent แบบ Hybrid:
- ใช้โมเดลขนาดเล็กและขนาดกลางแบบ open-weight สำหรับงาน Routine actions ส่วนใหญ่ (ซึ่งครอบคลุมงานส่วนใหญ่ใน pipeline จริง) [1, 5]
- เก็บโมเดล Frontier ไว้เฉพาะสำหรับงาน Narrow class ที่ต้องการการวางแผนลึกซึ้ง (deep planning) จริงๆ [1, 6]
แนวทางนี้ไม่เพียงแต่ลดต้นทุน แต่ยังเพิ่มความเร็วให้กับระบบ Agent โดยรวม เพราะงานส่วนใหญ่สามารถจบลงที่โมเดลเล็กได้ ไม่ต้องรอโมเดลยักษ์ใหญ่เสมอไป
ข้อมูลเปิดสำหรับชุมชน
เพื่อให้ชุมชน AI สามารถนำไปศึกษาต่อได้อย่างเต็มที่ ทีมวิจัยได้ปล่อย benchmark, harness, sweep configurations และ full run corpus ออกมาอย่างเปิดเผย [1, 6] สิ่งนี้จะช่วยให้ผู้พัฒนาสามารถทดสอบโมเดลของตนเองกับมาตรฐานเดียวกันได้
บทสรุป
AgentFloor ชี้ให้เห็นว่า วงจรแห่งความเชื่อที่ว่า “ต้องใช้โมเดลใหญ่เท่านั้นถึงจะทำ Agent ได้” กำลังสิ้นสุดลง โมเดลขนาดเล็กและขนาดกลางแบบ open-weight กำลังเข้าใกล้ความสามารถของโมเดล Frontier ในงานส่วนใหญ่ และด้วยต้นทุนที่ต่ำกว่ามาก การออกแบบระบบ Agent แบบ Hybrid ที่ผสมผสานโมเดลเล็กและใหญ่อย่างเหมาะสม จึงเป็นทิศทางที่สมเหตุสมผลที่สุดสำหรับทั้งด้านประสิทธิภาพและต้นทุนในอนาคต [1, 5, 6]
คำถามที่พบบ่อย (FAQ)
AgentFloor คืออะไร? AgentFloor เป็น benchmark แบบ deterministic จำนวน 30 tasks ที่จัดแบ่งเป็น 6 ระดับความสามารถ เพื่อทดสอบขีดจำกัดของโมเดลขนาดเล็กและขนาดกลางในงาน Agent [1, 5, 6]
โมเดลขนาดเล็กสามารถทำงาน Agent ได้เทียบเท่า GPT-5 หรือไม่? ในภาพรวมบน AgentFloor โมเดล open-weight ที่แข็งแกร่งที่สุดสามารถทำคะแนนได้เทียบเท่า GPT-5 แต่มีต้นทุนและเวลาในการรันที่ถูกกว่าและเร็วกว่ามาก [1, 6]
งานประเภทไหนที่โมเดลเล็กยังทำไม่ได้ดีเท่าโมเดล Frontier? งาน long-horizon planning ที่ต้องมีการประสานงานหลายขั้นตอนและติดตาม constraints ที่ซับซ้อน โมเดล Frontier ยังคงทำได้ดีกว่า [1, 5]
ระบบ Agent ในอนาคตควรออกแบบอย่างไร? ควรใช้แนวทาง Hybrid: ใช้โมเดลเล็กสำหรับงาน Routine actions ส่วนใหญ่ และใช้โมเดล Frontier เฉพาะงานที่ต้องการการวางแผนลึกซึ้ง [1, 5, 6]
มีข้อมูลให้ดาวน์โหลดจากงานวิจัยนี้หรือไม่? ใช่ ทีมวิจัยได้ปล่อย benchmark, harness, sweep configurations และ full run corpus ออกมาอย่างเปิดเผย [1, 6]
Sources
- Open Models have crossed a threshold (www.langchain.com) — 2026-04-02