Qwen3.5-9B 性能测试报告
生成时间: 2026-03-16 17:37:52
1. 测试环境
| 项目 |
值 |
| 模型 |
Qwen3.5-9B |
| 加载方式 |
4-bit NF4 量化 (bitsandbytes),纯 GPU |
| GPU |
NVIDIA GeForce RTX 3050 OEM |
| GPU 显存 |
8 GB |
| CUDA |
12.1 |
| Python 环境 |
conda yolo |
| 模型显存占用 |
7.13 GB |
| 系统内存占用 |
7.59 GB |
2. 推理速度
| 测试场景 |
输入tokens |
输出tokens |
耗时(s) |
速度(tokens/s) |
| 短输入短输出 |
13 |
12.0 |
12.503 |
1.0 |
| 短输入中输出 |
14 |
64.0 |
38.312 |
1.7 |
| 短输入长输出 |
19 |
128.0 |
69.541 |
1.8 |
| 中输入中输出 |
64 |
128.0 |
78.318 |
1.6 |
| 长输入短输出 |
318 |
32.0 |
32.659 |
1.0 |
3. 精度评估
总准确率: 90.0% (9/10)
| 分类 |
通过/总数 |
准确率 |
| 知识问答 |
2/3 |
67% |
| 数学推理 |
2/2 |
100% |
| 逻辑推理 |
1/1 |
100% |
| 代码理解 |
1/1 |
100% |
| 翻译 |
1/1 |
100% |
| 摘要 |
1/1 |
100% |
| 情感分类 |
1/1 |
100% |
4. 并发性能
| 并发数 |
总耗时(s) |
吞吐量(tokens/s) |
平均延迟(s) |
| 1 |
33.29 |
1.9 |
33.18 |
| 2 |
65.01 |
2.0 |
49.14 |
| 4 |
128.55 |
2.0 |
80.09 |
| 8 |
275.44 |
1.9 |
148.94 |
注: 单GPU串行推理,并发测试主要体现请求排队效果
5. GPU 算力需求
| 精度 |
模型大小 |
最低显存 |
推荐显卡 |
| FP32 |
36GB |
40GB |
A100 80GB, H100 80GB |
| FP16/BF16 |
18GB |
22GB |
A100 40GB, RTX 4090 24GB |
| INT8 |
9GB |
12GB |
RTX 4070 Ti 16GB, RTX 3090 24GB |
| INT4 (NF4) |
5GB |
8GB |
RTX 4060 8GB, RTX 3060 12GB |
6. 实际测试结论
RTX 3050 8GB 测试结果 (4-bit NF4 量化,纯 GPU)
| 指标 |
结果 |
| GPU 显存占用 |
7.13 GB / 8 GB |
| 系统内存占用 |
7.59 GB |
| 推理速度 |
1.0-1.8 tokens/s |
| 精度 |
90% (9/10) |
| 输出质量 |
正常,回答准确 |
注意事项
- 必须使用 4-bit NF4 量化: device_map={"":0} 将模型全部放在 GPU 上
- 必须关闭 thinking 模式: enable_thinking=False,否则输出中包含思考过程且容易被截断
- 显存接近上限: 7.13GB / 8GB,长文本输入可能导致 OOM
- 并发不可行: 单 GPU 串行推理,吞吐量恒定 ~2 tokens/s
部署建议
- RTX 3050 8GB 可用于开发测试,4-bit 量化后勉强可用
- 推荐: RTX 3060 12GB (INT8) 或 RTX 4060 Ti 16GB,有更大显存余量
- 生产部署: RTX 4090 24GB (FP16) 或 A100 40GB/80GB + vLLM
- 替代方案: 使用更小的模型如 Qwen2.5-3B 或 Qwen2.5-7B 在 8GB 显卡上更流畅运行