Tình Báo AI
Tin tứcCông cụHướng dẫnCộng đồngHợp tác
Tình Báo AI

Nền tảng tin tức và phân tích AI hàng đầu bằng tiếng Việt. Cập nhật mỗi ngày.

Chuyên mục
Tin tức AICông cụ AIHướng dẫnKhóa họcThư viện Prompt
Công ty
Về chúng tôiLiên hệQuảng cáoCộng đồng
Pháp lý
Chính sách bảo mậtĐiều khoản sử dụng
© 2026 Tình Báo AI. Bảo lưu mọi quyền.
Chính sáchĐiều khoảnLiên hệ
Trang chủ›Cộng đồng›Bài viết
Hoàng Thị LanBài viết
lúc 18:23 10 tháng 4, 2026

GLM 5.1 crushes every other model except Opus in agentic benchmark at about 1/3 of the Opus cost

Trong bài viết này, tác giả chia sẻ kết quả thử nghiệm của mô hình AI GLM 5.1 trên bộ benchmark agentic so với các mô hình khác như Opus. Kết quả cho thấy GLM 5.1 đứng gần mức hiệu suất của Opus 4.6 chỉ với 1/3 chi phí (khoảng 0.4 USD/lần so với 1.2 USD/lần). Điều này giúp GLM 5.1 trở thành một trong những lựa chọn tối ưu về mặt năng lực và chi phí cho các tác vụ agentic.

Tác giả cũng nhấn mạnh rằng các benchmark cố định thường không phản ánh chính xác hiệu năng thực tế của mô hình trong môi trường hoạt động của agent. Vì vậy, họ dùng hệ thống OpenClaw để kiểm tra khả năng hoạt động thực tế qua các nhiệm vụ do người dùng đề xuất, trong một dạng chiến đấu kiểu Chatbot Arena/LMArena, với LLM làm trọng tài.

Kết quả cho thấy GLM 5.1 thực sự là một trong những mô hình hàng đầu cho các hệ thống agentic như OpenClaw hiện nay. Qwen 3.6 cũng có triển vọng tốt, nhưng hiện chưa hỗ trợ lưu cache prompt, do đó giá thành bị đẩy lên. Khi có cache prompt, Qwen dự kiến sẽ đạt mức chi phí tối thiểu tương đương M2.7, là lựa chọn đáng cân nhắc về mặt chi phí.

Tổng thể, bài viết khuyên người dùng nên tự thử nghiệm trên các nhiệm vụ của riêng mình và xem các mô hình hoạt động ra sao, đồng thời cung cấp liên kết đến bảng xếp hạng, phân tích chi phí, và phương pháp thử nghiệm tại [https://app.uniclaw.ai/arena?via=reddit](https://app.uniclaw.ai/arena?via=reddit).

*Lưu ý*: Nhiều người còn nhầm lẫn giữa giá mỗi token và giá mỗi nhiệm vụ. Giá mỗi token của GLM 5.1 thấp hơn 1/5 của Opus, tuy nhiên, GLM tốn khoảng gấp đôi token cho cùng một nhiệm vụ so với Opus do sử dụng công cụ nhiều hơn – trung bình hơn 2 lần gọi công cụ mỗi nhiệm vụ. Vì vậy, chi phí thực tế mỗi nhiệm vụ của GLM chỉ khoảng 1/3 so với Opus.

discussionaillm
800

Bình luận (0)

Đăng nhập để bình luận
Đang tải bình luận...
Hoàng Thị Lan
@thilan

Thành viên cộng đồng AI | Quan tâm trí tuệ nhân tạo và ứng dụng thực tế

1
Bài viết
0
Upvotes

Bài viết liên quan

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...
Lê Hoàng Nam · 0 upvote
DeepMind’s New AI Just Changed Science Forever
Đặng Ngọc Linh · 0 upvote
Cái xưởng ma túy tại nhà trong video này điên rồ thật 😬 Ba
Võ Quốc Bảo · 0 upvote
6 Months Using AI for Actual Work: What's Incredible, What's Overhyped, and What's Quietly Dangerous
Đặng Ngọc Linh · 0 upvote