Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...
Tiêu đề: Gemma 4 31B so với Qwen 3.5 27B: Loại nào phù hợp nhất cho các quy trình làm việc với ngữ cảnh dài? Ý kiến của mình...
Nội dung:
* **Cấu hình của mình:** i7 12700K | RTX 3090 TI | 96GB RAM
* **Các mô hình:** Qwen 3.5 27B UD Q5/Q6_K_XL | Gemma 4 31B UD Q4_K_XL
Về điểm mấu chốt:
Hiện tại, **Gemma 4 31B** và **Qwen 3.5 27B** là hai mô hình tốt nhất chạy nội bộ trên card 24GB. Chỉ thế thôi.
Mình đã thử nghiệm tất cả mọi thứ. Đây là hai mô hình đầu tiên thực sự cảm giác như là bước tiến so với kích thước của chúng.
Hầu hết các mô hình cho đến nay chỉ là những sản phẩm mới có hiệu năng trung bình, không thực sự hữu dụng ngoài các tác vụ như viết lại, tóm tắt, một chút mã code hoặc làm trò chơi RPG. Nhưng tất cả các mô hình nội bộ đều kém trong việc xử lý **ngữ cảnh dài** và **phân tích**.
Các bài kiểm tra benchmark chẳng nói lên được gì. Đối với mình, đơn giản là thử nghiệm dễ nhất: tải một mô hình nội bộ, đưa vào đó 50K dữ liệu, hỏi nó các câu hỏi rồi yêu cầu phân tích. Rất nhiều mô hình chỉ phát ra tiếng ồn, không cung cấp thông tin đáng kể nào, hay hiểu về nội dung gốc. Nó còn hay hallucinate, đưa ra những chi tiết sai lệch. Không dùng được.
Cho đến khi có **Qwen 3.5 27B**. Nó là model đầu tiên như vậy và đã thay đổi cuộc chơi đối với mình. Từ đó đến nay, nó luôn là lựa chọn chính cho mình.
Vài ngày sau khi Gemma 4 ra mắt, mình thử tải nó, nhập một đoạn dữ liệu dài 60K và chạy thử. Không chỉ trả lời câu hỏi, nó còn hiểu cả nội dung gốc. Từ đó, mình có thêm một model thứ hai đủ khả năng xử lý việc này. Nó không chi tiết bằng Qwen khi trích dẫn nguồn, nhưng lại có điểm đặc biệt mà Qwen không có. Mình sẽ quay lại phần đó.
Bây giờ, sau khi đã xác định được hai đối thủ chính cho việc làm việc với ngữ cảnh dài, chúng ta hãy đi vào so sánh. Model nào tốt hơn?
Trong vài ngày qua, mình đã so sánh trực tiếp giữa hai model này. Dưới đây là những phát hiện của mình:
- **Gemma 4 hiện tại chậm hơn nhiều so với Qwen 3.5.** Mình đã thử khi xử lý ngữ cảnh khoảng 70-100K. Cho đến hôm qua, nó chạy rất chậm, gần như không thể dùng được. (Tốc độ chỉ khoảng 0.6 - 3 token/sec) Tuy nhiên, các output của nó đủ tốt để mình vẫn cố gắng điều chỉnh cài đặt. Và đội ngũ phát triển đã cập nhật các phiên bản mới của Gemma.