4ac406572eaeb67cd1beb686255e8e3153dc7b77
RTX 3050 8GB 无法完整加载 Qwen3.5-9B,即使量化也不行: - bitsandbytes 4-bit 不支持 CPU offload - bitsandbytes 8-bit 与 accelerate 存在版本兼容问题 - FP16 + CPU offload 可以加载但推理质量极差(输出乱码) - 推理速度仅 0.4 tokens/s 结论:RTX 3050 8GB 不适合运行 Qwen3.5-9B Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
Qwen3.5-9B 性能测试
对 Qwen/Qwen3.5-9B 模型进行全面性能评估,包括推理速度、精度、并发能力和算力需求分析。
目录结构
vsp/qwen3.5-9b/- 测试代码和结果docs/plans/- 实施计划
运行环境
- conda env: yolo
- Python 3.10, PyTorch 2.5.1+cu121
- GPU: NVIDIA RTX 3050 OEM 8GB
Description
Languages
Python
100%