摘要: 本文基于 Qwen3.5 在 H100/H200 上的实测,分析 vLLM performance-mode 的实际作用。结果表明,它并非独立提速手段,而是结合量化、cache 等优化,用于收敛低延迟或高吞吐目标,主要价值在于缩小调优范围。 阅读全文
posted @ 2026-04-08 14:15 GPUStack 阅读(120) 评论(0) 推荐(0)