16337 682063abf1 feat: 改用 4-bit NF4 纯 GPU 推理,关闭 thinking 模式
- 模型加载改为 bitsandbytes 4-bit NF4 量化,device_map={"":0} 纯 GPU
- 关闭 Qwen3.5 thinking 模式 (enable_thinking=False)
- 精度从 60% 提升到 90%,推理速度 1-2 tokens/s
- GPU 显存 7.13GB/8GB,输出质量正常
- 更新所有测试结果和综合报告

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-16 17:38:33 +08:00

Qwen3.5-9B 性能测试

对 Qwen/Qwen3.5-9B 模型进行全面性能评估,包括推理速度、精度、并发能力和算力需求分析。

目录结构

  • vsp/qwen3.5-9b/ - 测试代码和结果
  • docs/plans/ - 实施计划

运行环境

  • conda env: yolo
  • Python 3.10, PyTorch 2.5.1+cu121
  • GPU: NVIDIA RTX 3050 OEM 8GB
Description
qwen模型性能测试
Readme 95 KiB
Languages
Python 100%