第五章 高效推理:量化、批处理与推理引擎
“一个未经优化的大模型,就像一辆没装涡轮的超跑 —— 潜力巨大,但油耗惊人。”
—— 本书作者 _abab
5.1 为什么需要推理优化?—— 从成本与体验双视角
大模型推理的核心矛盾是“性能需求” 与 “资源成本” 的平衡。以 Qwen-7B 为例(FP16 精度,无任何优化):
- 模型存储:≈14 GB(FP16 权重,每个参数 2 字节)
- 显存占用:≈22 GB(含模型权重 + KV Cache + 中间计算张量,8K 上下文)
- 生成速度:≈10 token/s(单请求,A100 80G)
- 并发能力:≈5~8 个请求 / 秒(A100 80G,无批处理)
- 成本估算:A100 小时租金 ≈5 美元,支持 100 并发需 12~15 张 A100,日成本 ≈1440 美元
而经过量化 + 推理引擎 + 批处理 三重优化后: