qwen-test

Files

16337 682063abf1 feat: 改用 4-bit NF4 纯 GPU 推理，关闭 thinking 模式

- 模型加载改为 bitsandbytes 4-bit NF4 量化，device_map={"":0} 纯 GPU
- 关闭 Qwen3.5 thinking 模式 (enable_thinking=False)
- 精度从 60% 提升到 90%，推理速度 1-2 tokens/s
- GPU 显存 7.13GB/8GB，输出质量正常
- 更新所有测试结果和综合报告

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-03-16 17:38:33 +08:00

results

feat: 改用 4-bit NF4 纯 GPU 推理，关闭 thinking 模式

2026-03-16 17:38:33 +08:00

benchmark_speed.py

feat: 改用 4-bit NF4 纯 GPU 推理，关闭 thinking 模式

2026-03-16 17:38:33 +08:00

download_model.py

feat: 添加模型下载脚本（ModelScope）

2026-03-16 11:31:09 +08:00

generate_report.py

feat: 改用 4-bit NF4 纯 GPU 推理，关闭 thinking 模式