16337 4ac406572e fix: 修复模型加载方式,改用 FP16+CPU offload
RTX 3050 8GB 无法完整加载 Qwen3.5-9B,即使量化也不行:
- bitsandbytes 4-bit 不支持 CPU offload
- bitsandbytes 8-bit 与 accelerate 存在版本兼容问题
- FP16 + CPU offload 可以加载但推理质量极差(输出乱码)
- 推理速度仅 0.4 tokens/s

结论:RTX 3050 8GB 不适合运行 Qwen3.5-9B

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-16 13:05:20 +08:00

Qwen3.5-9B 性能测试

对 Qwen/Qwen3.5-9B 模型进行全面性能评估,包括推理速度、精度、并发能力和算力需求分析。

目录结构

  • vsp/qwen3.5-9b/ - 测试代码和结果
  • docs/plans/ - 实施计划

运行环境

  • conda env: yolo
  • Python 3.10, PyTorch 2.5.1+cu121
  • GPU: NVIDIA RTX 3050 OEM 8GB
Description
qwen模型性能测试
Readme 95 KiB
Languages
Python 100%