AgentFloor คืออะไรและทดสอบอะไร?

AgentFloor เป็น benchmark แบบ deterministic จำนวน 30 tasks ที่จัดแบ่งเป็น 6 ระดับความสามารถ เพื่อวัดขีดจำกัดของโมเดลขนาดเล็กในงาน Agent การทดสอบนี้ประเมินโมเดล open-weight จำนวน 16 ตัว โดยทำไปทั้งหมด 16,542 scored runs เพื่อเปรียบเทียบประสิทธิภาพกับ GPT-5

โมเดลเล็ก Open-Weight ทำ Agent ได้ดีกว่า GPT-5 จริงหรือไม่?

ในภาพรวมบน AgentFloor โมเดล open-weight ที่แข็งแกร่งที่สุดสามารถทำคะแนนได้เทียบเท่า GPT-5 แต่มีต้นทุนและเวลาในการรันที่ถูกกว่าและเร็วกว่ามาก งานวิจัยชี้ว่าโมเดลขนาดเล็กจัดการงาน Agent ส่วนใหญ่ที่มีลักษณะสั้นและโครงสร้างชัดเจนได้ดีพอๆ กับโมเดลยักษ์ใหญ่

ควรออกแบบระบบ Agent อย่างไรตามผลวิจัยนี้?

นักวิจัยเสนอแนวทาง Hybrid โดยควรใช้โมเดลขนาดเล็กและขนาดกลางแบบ open-weight สำหรับงาน Routine actions ส่วนใหญ่ เพื่อลดต้นทุนและเพิ่มความเร็ว และเก็บโมเดล Frontier ไว้เฉพาะสำหรับงาน Narrow class ที่ต้องการการวางแผนลึกซึ้งจริงๆ

มีข้อมูลหรือโค้ดจากงานวิจัยนี้ให้ดาวน์โหลดหรือไม่?

ใช่ ทีมวิจัยได้ปล่อย benchmark, harness, sweep configurations และ full run corpus ออกมาอย่างเปิดเผย เพื่อให้ชุมชน AI สามารถนำไปศึกษาต่อและทดสอบโมเดลของตนเองกับมาตรฐานเดียวกันได้อย่างเต็มที่

AgentFloor: โมเดลเล็ก Open-Weight ทำงาน Agent เทียบเท่า GPT-5

สรุปสั้น: งานวิจัย AgentFloor จาก arXiv พบว่าโมเดลขนาดเล็กและขนาดกลางแบบ open-weight สามารถทำงาน Agent ระดับพื้นฐานได้เทียบเท่า GPT-5 ในราคาที่ถูกกว่ามาก งานวิจัยนี้ชี้ให้เห็นว่าโมเดลขนาดเล็กและขนาดกลางแบบ open-weight สามารถทำงาน Agent ระดับพื้นฐานได้เทียบเท่า GPT-5 ในราคาที่ถูกกว่ามาก

ข้อเท็จจริงสำคัญ

AgentFloor เป็น benchmark แบบ deterministic จำนวน 30 tasks ที่จัดแบ่งเป็น 6 ระดับความสามารถ (capability ladder) [1, 5, 6]
การทดสอบประเมินโมเดล open-weight จำนวน 16 ตัว (ขนาด 0.27B ถึง 32B parameters) เทียบกับ GPT-5 [1, 6]
การทดสอบทำไปทั้งหมด 16,542 scored runs [1, 6]
โมเดล open-weight ที่แข็งแกร่งที่สุดสามารถทำคะแนนรวมบน AgentFloor ได้เทียบเท่า GPT-5 [1, 6]
โมเดล open-weight มีต้นทุนและเวลาในการรันถูกกว่า GPT-5 อย่างมีนัยสำคัญ [1, 6]
โมเดล Frontier ยังคงได้เปรียบในงาน long-horizon planning ที่ต้องมีการประสานงานและติดตาม constraints นานๆ [1, 5]
ไม่มีโมเดลประเภทใดทำ reliability ได้สูงในงาน long-horizon planning [1, 6]

โมเดลเล็กก็ทำ Agent ได้: เมื่อ AgentFloor ชี้ว่า GPT-5 ไม่จำเป็นสำหรับงานทั่วไป

งานวิจัยใหม่จาก arXiv ที่ชื่อว่า “AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?” กำลังท้าทายความเชื่อเดิมในวงการ AI ที่มองว่าโมเดลขนาดใหญ่ระดับ Frontier (เช่น GPT-5 หรือ Claude Opus) จำเป็นต้องมีในทุกขั้นตอนของระบบ Agent [1, 6] งานนี้ชี้ให้เห็นว่าในความเป็นจริง โมเดลขนาดเล็กและขนาดกลางแบบ open-weight สามารถจัดการงาน Agent ส่วนใหญ่ที่มีลักษณะสั้นและโครงสร้างชัดเจนได้ดีพอๆ กับโมเดลยักษ์ใหญ่ แต่ในราคาที่ถูกกว่ามาก [1, 5]

AgentFloor คืออะไร?

AgentFloor ถูกออกแบบมาเพื่อตอบคำถามที่การประเมินโมเดลทั่วไปมักมองข้าม: “ส่วนไหนของ workflow ที่ต้องการความฉลาดระดับ Frontier จริงๆ และส่วนไหนที่โมเดลเล็กทำได้?” [1, 6]

แทนที่จะใช้ benchmark แบบสุ่มหรือวัดแค่ความฉลาดทั่วไป ทีมวิจัยได้สร้างชุดทดสอบแบบ deterministic จำนวน 30 tasks ที่จัดแบ่งเป็น 6 ระดับความสามารถ (capability ladder) ตั้งแต่:

การปฏิบัติตามคำสั่งพื้นฐาน (Instruction following)
การใช้เครื่องมือ (Tool use)
การประสานงานหลายขั้นตอน (Multi-step coordination)
การวางแผนระยะยาวภายใต้ข้อจำกัดที่คงที่ (Long-horizon planning with persistent constraints)

การออกแบบนี้ช่วยให้เห็นภาพชัดเจนว่า โมเดลเริ่มล้มเหลวหรือทำได้ดีที่สุดตรงจุดไหนในลำดับขั้นของการใช้เครื่องมือ [1, 5]

ผลการทดสอบ: โมเดลเล็กจับคู่ GPT-5 ได้

ในการทดสอบ ทีมวิจัยได้ประเมินโมเดล open-weight จำนวน 16 ตัว ที่มีขนาดตั้งแต่ 0.27 billion parameters ไปจนถึง 32 billion parameters โดยนำผลไปเทียบกับ GPT-5 [1, 6] การทดสอบนี้ทำไปทั้งหมด 16,542 scored runs [1, 6]

ผลลัพธ์ที่น่าสนใจที่สุดคือ: ในภาพรวม (aggregate) โมเดล open-weight ที่แข็งแกร่งที่สุดสามารถทำคะแนนได้เทียบเท่า GPT-5 บน AgentFloor [1, 6] อย่างไรก็ตาม ความได้เปรียบที่สำคัญที่สุดไม่ใช่แค่ความแม่นยำ แต่คือประสิทธิภาพด้านต้นทุนและเวลา: โมเดล open-weight เหล่านี้ถูกกว่าและรันได้เร็วกว่า GPT-5 อย่างมีนัยสำคัญ [1, 6]

นี่สอดคล้องกับแนวโน้มในอุตสาหกรรมที่ระบุว่า โมเดล open-weight กำลังก้าวข้ามขีดจำกัด (crossed a threshold) ในงาน Agent พื้นฐาน เช่น การจัดการไฟล์หรือการใช้เครื่องมือต่างๆ ซึ่งช่วยลด latency และค่าใช้จ่ายได้มหาศาลเมื่อเทียบกับโมเดลปิด (closed models) [8]

ขอบเขตของความแตกต่าง: เมื่อใดที่โมเดลเล็ก “ไม่พอ”?

แม้โมเดลเล็กจะทำได้ดีในงานส่วนใหญ่ แต่ AgentFloor ก็เผยให้เห็น “ขอบเขต” (boundary) ที่ชัดเจน: งาน long-horizon planning ที่ต้องมีการประสานงานอย่างต่อเนื่องและติดตาม constraints ที่ซับซ้อนตลอดหลายขั้นตอน โมเดล Frontier ยังคงทำได้ดีกว่า [1, 5]

อย่างไรก็ตาม งานวิจัยยังชี้ให้เห็นว่า แม้แต่โมเดล Frontier ก็ยังไม่มีความน่าเชื่อถือ (reliability) สูงพอในงานประเภทนี้ [1, 6] นั่นหมายความว่า งานที่ยากที่สุดเหล่านี้ยังคงเป็นความท้าทายสำหรับทุกโมเดลในปัจจุบัน

แนวทาง Hybrid: ใช้โมเดลเล็กให้ถูกจุด

n จากผลการวิจัย นักวิจัยเสนอแนวทางออกแบบระบบ Agent แบบ Hybrid:

ใช้โมเดลขนาดเล็กและขนาดกลางแบบ open-weight สำหรับงาน Routine actions ส่วนใหญ่ (ซึ่งครอบคลุมงานส่วนใหญ่ใน pipeline จริง) [1, 5]
เก็บโมเดล Frontier ไว้เฉพาะสำหรับงาน Narrow class ที่ต้องการการวางแผนลึกซึ้ง (deep planning) จริงๆ [1, 6]

แนวทางนี้ไม่เพียงแต่ลดต้นทุน แต่ยังเพิ่มความเร็วให้กับระบบ Agent โดยรวม เพราะงานส่วนใหญ่สามารถจบลงที่โมเดลเล็กได้ ไม่ต้องรอโมเดลยักษ์ใหญ่เสมอไป

ข้อมูลเปิดสำหรับชุมชน

เพื่อให้ชุมชน AI สามารถนำไปศึกษาต่อได้อย่างเต็มที่ ทีมวิจัยได้ปล่อย benchmark, harness, sweep configurations และ full run corpus ออกมาอย่างเปิดเผย [1, 6] สิ่งนี้จะช่วยให้ผู้พัฒนาสามารถทดสอบโมเดลของตนเองกับมาตรฐานเดียวกันได้

บทสรุป

AgentFloor ชี้ให้เห็นว่า วงจรแห่งความเชื่อที่ว่า “ต้องใช้โมเดลใหญ่เท่านั้นถึงจะทำ Agent ได้” กำลังสิ้นสุดลง โมเดลขนาดเล็กและขนาดกลางแบบ open-weight กำลังเข้าใกล้ความสามารถของโมเดล Frontier ในงานส่วนใหญ่ และด้วยต้นทุนที่ต่ำกว่ามาก การออกแบบระบบ Agent แบบ Hybrid ที่ผสมผสานโมเดลเล็กและใหญ่อย่างเหมาะสม จึงเป็นทิศทางที่สมเหตุสมผลที่สุดสำหรับทั้งด้านประสิทธิภาพและต้นทุนในอนาคต [1, 5, 6]

คำถามที่พบบ่อย (FAQ)

AgentFloor คืออะไร? AgentFloor เป็น benchmark แบบ deterministic จำนวน 30 tasks ที่จัดแบ่งเป็น 6 ระดับความสามารถ เพื่อทดสอบขีดจำกัดของโมเดลขนาดเล็กและขนาดกลางในงาน Agent [1, 5, 6]

โมเดลขนาดเล็กสามารถทำงาน Agent ได้เทียบเท่า GPT-5 หรือไม่? ในภาพรวมบน AgentFloor โมเดล open-weight ที่แข็งแกร่งที่สุดสามารถทำคะแนนได้เทียบเท่า GPT-5 แต่มีต้นทุนและเวลาในการรันที่ถูกกว่าและเร็วกว่ามาก [1, 6]

งานประเภทไหนที่โมเดลเล็กยังทำไม่ได้ดีเท่าโมเดล Frontier? งาน long-horizon planning ที่ต้องมีการประสานงานหลายขั้นตอนและติดตาม constraints ที่ซับซ้อน โมเดล Frontier ยังคงทำได้ดีกว่า [1, 5]

ระบบ Agent ในอนาคตควรออกแบบอย่างไร? ควรใช้แนวทาง Hybrid: ใช้โมเดลเล็กสำหรับงาน Routine actions ส่วนใหญ่ และใช้โมเดล Frontier เฉพาะงานที่ต้องการการวางแผนลึกซึ้ง [1, 5, 6]

มีข้อมูลให้ดาวน์โหลดจากงานวิจัยนี้หรือไม่? ใช่ ทีมวิจัยได้ปล่อย benchmark, harness, sweep configurations และ full run corpus ออกมาอย่างเปิดเผย [1, 6]

Sources

Open Models have crossed a threshold (www.langchain.com) — 2026-04-02