Files
qwen-test/vsp/qwen3.5-9b/results/REPORT.md
16337 682063abf1 feat: 改用 4-bit NF4 纯 GPU 推理,关闭 thinking 模式
- 模型加载改为 bitsandbytes 4-bit NF4 量化,device_map={"":0} 纯 GPU
- 关闭 Qwen3.5 thinking 模式 (enable_thinking=False)
- 精度从 60% 提升到 90%,推理速度 1-2 tokens/s
- GPU 显存 7.13GB/8GB,输出质量正常
- 更新所有测试结果和综合报告

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-16 17:38:33 +08:00

2.7 KiB
Raw Blame History

Qwen3.5-9B 性能测试报告

生成时间: 2026-03-16 17:37:52

1. 测试环境

项目
模型 Qwen3.5-9B
加载方式 4-bit NF4 量化 (bitsandbytes),纯 GPU
GPU NVIDIA GeForce RTX 3050 OEM
GPU 显存 8 GB
CUDA 12.1
Python 环境 conda yolo
模型显存占用 7.13 GB
系统内存占用 7.59 GB

2. 推理速度

测试场景 输入tokens 输出tokens 耗时(s) 速度(tokens/s)
短输入短输出 13 12.0 12.503 1.0
短输入中输出 14 64.0 38.312 1.7
短输入长输出 19 128.0 69.541 1.8
中输入中输出 64 128.0 78.318 1.6
长输入短输出 318 32.0 32.659 1.0

3. 精度评估

总准确率: 90.0% (9/10)

分类 通过/总数 准确率
知识问答 2/3 67%
数学推理 2/2 100%
逻辑推理 1/1 100%
代码理解 1/1 100%
翻译 1/1 100%
摘要 1/1 100%
情感分类 1/1 100%

4. 并发性能

并发数 总耗时(s) 吞吐量(tokens/s) 平均延迟(s)
1 33.29 1.9 33.18
2 65.01 2.0 49.14
4 128.55 2.0 80.09
8 275.44 1.9 148.94

注: 单GPU串行推理并发测试主要体现请求排队效果

5. GPU 算力需求

精度 模型大小 最低显存 推荐显卡
FP32 36GB 40GB A100 80GB, H100 80GB
FP16/BF16 18GB 22GB A100 40GB, RTX 4090 24GB
INT8 9GB 12GB RTX 4070 Ti 16GB, RTX 3090 24GB
INT4 (NF4) 5GB 8GB RTX 4060 8GB, RTX 3060 12GB

6. 实际测试结论

RTX 3050 8GB 测试结果 (4-bit NF4 量化,纯 GPU)

指标 结果
GPU 显存占用 7.13 GB / 8 GB
系统内存占用 7.59 GB
推理速度 1.0-1.8 tokens/s
精度 90% (9/10)
输出质量 正常,回答准确

注意事项

  1. 必须使用 4-bit NF4 量化: device_map={"":0} 将模型全部放在 GPU 上
  2. 必须关闭 thinking 模式: enable_thinking=False否则输出中包含思考过程且容易被截断
  3. 显存接近上限: 7.13GB / 8GB长文本输入可能导致 OOM
  4. 并发不可行: 单 GPU 串行推理,吞吐量恒定 ~2 tokens/s

部署建议

  1. RTX 3050 8GB 可用于开发测试4-bit 量化后勉强可用
  2. 推荐: RTX 3060 12GB (INT8) 或 RTX 4060 Ti 16GB有更大显存余量
  3. 生产部署: RTX 4090 24GB (FP16) 或 A100 40GB/80GB + vLLM
  4. 替代方案: 使用更小的模型如 Qwen2.5-3B 或 Qwen2.5-7B 在 8GB 显卡上更流畅运行