GLM 5.1 crushes every other model except Opus in agentic benchmark at about 1/3 of the Opus cost
Trong bài viết này, tác giả chia sẻ kết quả thử nghiệm của mô hình AI GLM 5.1 trên bộ benchmark agentic so với các mô hình khác như Opus. Kết quả cho thấy GLM 5.1 đứng gần mức hiệu suất của Opus 4.6 chỉ với 1/3 chi phí (khoảng 0.4 USD/lần so với 1.2 USD/lần). Điều này giúp GLM 5.1 trở thành một trong những lựa chọn tối ưu về mặt năng lực và chi phí cho các tác vụ agentic.
Tác giả cũng nhấn mạnh rằng các benchmark cố định thường không phản ánh chính xác hiệu năng thực tế của mô hình trong môi trường hoạt động của agent. Vì vậy, họ dùng hệ thống OpenClaw để kiểm tra khả năng hoạt động thực tế qua các nhiệm vụ do người dùng đề xuất, trong một dạng chiến đấu kiểu Chatbot Arena/LMArena, với LLM làm trọng tài.
Kết quả cho thấy GLM 5.1 thực sự là một trong những mô hình hàng đầu cho các hệ thống agentic như OpenClaw hiện nay. Qwen 3.6 cũng có triển vọng tốt, nhưng hiện chưa hỗ trợ lưu cache prompt, do đó giá thành bị đẩy lên. Khi có cache prompt, Qwen dự kiến sẽ đạt mức chi phí tối thiểu tương đương M2.7, là lựa chọn đáng cân nhắc về mặt chi phí.
Tổng thể, bài viết khuyên người dùng nên tự thử nghiệm trên các nhiệm vụ của riêng mình và xem các mô hình hoạt động ra sao, đồng thời cung cấp liên kết đến bảng xếp hạng, phân tích chi phí, và phương pháp thử nghiệm tại [https://app.uniclaw.ai/arena?via=reddit](https://app.uniclaw.ai/arena?via=reddit).
*Lưu ý*: Nhiều người còn nhầm lẫn giữa giá mỗi token và giá mỗi nhiệm vụ. Giá mỗi token của GLM 5.1 thấp hơn 1/5 của Opus, tuy nhiên, GLM tốn khoảng gấp đôi token cho cùng một nhiệm vụ so với Opus do sử dụng công cụ nhiều hơn – trung bình hơn 2 lần gọi công cụ mỗi nhiệm vụ. Vì vậy, chi phí thực tế mỗi nhiệm vụ của GLM chỉ khoảng 1/3 so với Opus.