Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4
Chia sẻ chút về hiệu năng của Intel Arc Pro B70 32GB khi chạy Qwen3.5-27B trên Q4. Khi mới có GPU, mình đã đăng bài trên r/IntelArc nhưng chưa có số liệu thực tế do vẫn chưa cài đặt vllm. Sau nhiều đêm mò mẫm, cuối cùng cũng làm được.
Dưới đây là tóm tắt tiến trình:
- Cả llama.cpp và llm-scaler-vllm đều đạt khoảng 12 tps cho tốc độ sinh token.
- Parallel tensor làm giảm hiệu năng (có thể liên quan đến topology PCIe của mình).
- Pipeline parallel giúp nâng cao PP, nhưng giảm tốc TG cho từng truy vấn đơn lẻ, còn cả hai cùng cải thiện khi chạy đa nhiệm cao.
- Hiệu năng khi chạy nhiều nhiệm vụ hơn khá tốt, TG đạt tới 135 tps với 32 luồng, chỉ thấp hơn khoảng 20% so với RTX PRO 4500 32GB.
- Tiêu thụ điện năng ở 32 luồng cao hơn khoảng 50% so với RTX PRO 4500 32GB — đúng như thông số kỹ thuật. Mức tiêu thụ cao nhất là ở bước PP, còn trong thời gian TG đơn lẻ thì giảm gần một nửa, và khá ổn định kể cả khi chạy nhiều luồng.
- Muốn chạy Qwen3.5, bạn cần cài bản beta mới nhất của fork vllm.
- Sau khi cài Ubuntu 26.04 (phiên bản pre-release), không cần cài driver gì đặc biệt. Mình đã thử trên Ubuntu 24.04.4 không thành công, còn với Ubuntu 25.10 thì cũng không thích hợp vì sẽ bỏ đi sau 3 tháng.
Dưới đây là lệnh chạy docker cho vllm intel fork để chạy Qwen3.5 trên Ubuntu 26.04 LTS:
```bash
export HF_TOKEN="---your hf token---"
docker run -it --rm \
--name vllmb70 \
--ipc=host \
--shm-size=32gb \
--device /dev/dri:/dev/dri \
--privileged \
-p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-e HF_TOKEN=$HF_TOKEN \
-e VLLM_TARGET_DEVICE="xpu" \
--entrypoint /bin/bash \
intel/llm-scaler-vllm:0.14.0-b8.1 \
-c "source /opt/intel/oneapi/setvars.sh --force && \
python3 -m vllm.entrypoints.openai.api_server \
--model Intel/Qwen3.5-27B-int4-AutoRound \
--tokenizer Qwen/Qwen3.5-27B \
--served-model-name qwen3.5-27b \
--gpu-memory-utilization 0.92"```