Tình Báo AI
Tin tứcCông cụHướng dẫnCộng đồngHợp tác
Tình Báo AI

Nền tảng tin tức và phân tích AI hàng đầu bằng tiếng Việt. Cập nhật mỗi ngày.

Chuyên mục
Tin tức AICông cụ AIHướng dẫnKhóa họcThư viện Prompt
Công ty
Về chúng tôiLiên hệQuảng cáoCộng đồng
Pháp lý
Chính sách bảo mậtĐiều khoản sử dụng
© 2026 Tình Báo AI. Bảo lưu mọi quyền.
Chính sáchĐiều khoảnLiên hệ
Trang chủ›Cộng đồng›Bài viết
Lê Quốc BảoBài viết
lúc 21:51 4 tháng 4, 2026

So sánh thực tế: GPT-4o vs Claude Sonnet 4 vs Gemini 2.5 Pro cho code generation

Tại lab, team mình vừa benchmark 3 model lớn cho task code generation trên 50 bài toán LeetCode (mix Easy/Medium/Hard) + 20 real-world coding tasks.

Kết quả tóm tắt:

  • GPT-4o: Pass rate 82%, code clean nhưng đôi khi verbose. Giỏi nhất ở system design.
  • Claude Sonnet 4: Pass rate 87%, code concise và idiomatic hơn. Best ở refactoring và debugging.
  • Gemini 2.5 Pro: Pass rate 79%, nhưng context window 1M tokens là game changer cho large codebase.

Điều thú vị: Khi cho cả 3 model cùng 1 prompt tiếng Việt, Claude xử lý tốt nhất. GPT-4o đôi khi mix Anh-Việt. Gemini ổn nhưng comment code bằng tiếng Anh.

Kết luận: Không có "best model" — tùy use case. Team mình dùng Claude cho daily coding, GPT-4o cho architecture design, Gemini khi cần xử lý repo lớn.

Paper chi tiết sẽ publish trên arXiv tuần sau. Stay tuned.

GPT4ClaudeGeminiDanhGia
577893

Bình luận (3)

Đăng nhập để bình luận
Đang tải bình luận...
Lê Quốc Bảo
@baole_ai

AI Research Engineer @ FPT AI Center. NLP và Computer Vision. PhD candidate.

1
Bài viết
89
Upvotes

Bài viết liên quan

7 prompt techniques tôi dùng hàng ngày để viết content hay hơn
Bùi Thị Ngọc Lan · 83 upvote
Tôi đã build một SaaS tool bằng Claude API trong 2 tuần — đây là những gì tôi học được
Nguyễn Minh Khôi · 47 upvote
Chia sẻ kinh nghiệm thực tế: Tôi đã dùng AI để screening 500
Lý Thị Kim Ngân · 38 upvote
Experiment thú vị: dùng Claude để phân tích sentiment 10,000
Lê Thanh Phong · 29 upvote