Lê Quốc BảoBài viết
lúc 21:51 4 tháng 4, 2026
So sánh thực tế: GPT-4o vs Claude Sonnet 4 vs Gemini 2.5 Pro cho code generation
Tại lab, team mình vừa benchmark 3 model lớn cho task code generation trên 50 bài toán LeetCode (mix Easy/Medium/Hard) + 20 real-world coding tasks.
Kết quả tóm tắt:
- GPT-4o: Pass rate 82%, code clean nhưng đôi khi verbose. Giỏi nhất ở system design.
- Claude Sonnet 4: Pass rate 87%, code concise và idiomatic hơn. Best ở refactoring và debugging.
- Gemini 2.5 Pro: Pass rate 79%, nhưng context window 1M tokens là game changer cho large codebase.
Điều thú vị: Khi cho cả 3 model cùng 1 prompt tiếng Việt, Claude xử lý tốt nhất. GPT-4o đôi khi mix Anh-Việt. Gemini ổn nhưng comment code bằng tiếng Anh.
Kết luận: Không có "best model" — tùy use case. Team mình dùng Claude cho daily coding, GPT-4o cho architecture design, Gemini khi cần xử lý repo lớn.
Paper chi tiết sẽ publish trên arXiv tuần sau. Stay tuned.
GPT4ClaudeGeminiDanhGia
577893
Bình luận (3)
Đăng nhập để bình luận
Đang tải bình luận...