Tình Báo AI
Tin tứcCông cụHướng dẫnCộng đồngHợp tác
Tình Báo AI

Nền tảng tin tức và phân tích AI hàng đầu bằng tiếng Việt. Cập nhật mỗi ngày.

Chuyên mục
Tin tức AICông cụ AIHướng dẫnKhóa họcThư viện Prompt
Công ty
Về chúng tôiLiên hệQuảng cáoCộng đồng
Pháp lý
Chính sách bảo mậtĐiều khoản sử dụng
© 2026 Tình Báo AI. Bảo lưu mọi quyền.
Chính sáchĐiều khoảnLiên hệ
Trang chủ›Cộng đồng›Bài viết
Phạm Thu HằngBài viết
lúc 05:52 11 tháng 4, 2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

Chia sẻ chút về hiệu năng của Intel Arc Pro B70 32GB khi chạy Qwen3.5-27B trên Q4. Khi mới có GPU, mình đã đăng bài trên r/IntelArc nhưng chưa có số liệu thực tế do vẫn chưa cài đặt vllm. Sau nhiều đêm mò mẫm, cuối cùng cũng làm được.

Dưới đây là tóm tắt tiến trình:

  1. Cả llama.cpp và llm-scaler-vllm đều đạt khoảng 12 tps cho tốc độ sinh token.
  2. Parallel tensor làm giảm hiệu năng (có thể liên quan đến topology PCIe của mình).
  3. Pipeline parallel giúp nâng cao PP, nhưng giảm tốc TG cho từng truy vấn đơn lẻ, còn cả hai cùng cải thiện khi chạy đa nhiệm cao.
  4. Hiệu năng khi chạy nhiều nhiệm vụ hơn khá tốt, TG đạt tới 135 tps với 32 luồng, chỉ thấp hơn khoảng 20% so với RTX PRO 4500 32GB.
  5. Tiêu thụ điện năng ở 32 luồng cao hơn khoảng 50% so với RTX PRO 4500 32GB — đúng như thông số kỹ thuật. Mức tiêu thụ cao nhất là ở bước PP, còn trong thời gian TG đơn lẻ thì giảm gần một nửa, và khá ổn định kể cả khi chạy nhiều luồng.
  6. Muốn chạy Qwen3.5, bạn cần cài bản beta mới nhất của fork vllm.
  7. Sau khi cài Ubuntu 26.04 (phiên bản pre-release), không cần cài driver gì đặc biệt. Mình đã thử trên Ubuntu 24.04.4 không thành công, còn với Ubuntu 25.10 thì cũng không thích hợp vì sẽ bỏ đi sau 3 tháng.

Dưới đây là lệnh chạy docker cho vllm intel fork để chạy Qwen3.5 trên Ubuntu 26.04 LTS:

```bash

export HF_TOKEN="---your hf token---"

docker run -it --rm \

--name vllmb70 \

--ipc=host \

--shm-size=32gb \

--device /dev/dri:/dev/dri \

--privileged \

-p 8000:8000 \

-v ~/.cache/huggingface:/root/.cache/huggingface \

-e HF_TOKEN=$HF_TOKEN \

-e VLLM_TARGET_DEVICE="xpu" \

--entrypoint /bin/bash \

intel/llm-scaler-vllm:0.14.0-b8.1 \

-c "source /opt/intel/oneapi/setvars.sh --force && \

python3 -m vllm.entrypoints.openai.api_server \

--model Intel/Qwen3.5-27B-int4-AutoRound \

--tokenizer Qwen/Qwen3.5-27B \

--served-model-name qwen3.5-27b \

--gpu-memory-utilization 0.92"```

llmaiopenaidiscussionllama
800

Bình luận (0)

Đăng nhập để bình luận
Đang tải bình luận...
Phạm Thu Hằng
@thuhang

Thành viên cộng đồng AI | Quan tâm trí tuệ nhân tạo và ứng dụng thực tế

1
Bài viết
0
Upvotes

Bài viết liên quan

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...
Lê Hoàng Nam · 0 upvote
DeepMind’s New AI Just Changed Science Forever
Đặng Ngọc Linh · 0 upvote
Cái xưởng ma túy tại nhà trong video này điên rồ thật 😬 Ba
Võ Quốc Bảo · 0 upvote
6 Months Using AI for Actual Work: What's Incredible, What's Overhyped, and What's Quietly Dangerous
Đặng Ngọc Linh · 0 upvote