quantization 2 树莓派 AI 是怎么回事:从 Hailo NPU 到本地 LLM 的能力边界 2026/07/02 QwQ-32B 部署显存怎么估算:从 KV Cache 到 GPU 低精度计算 2026/06/14