KV Cache 小白解析

第一次接触 LLM 推理优化时，大家会先听到一个词：

KV Cache。

它听起来很玄乎，但本质是非常朴素的一件事：

不要把已经算过的东西重复算。把可复用的“中间结果”先记下来。

本篇用最少公式、尽量白话，解释它是什么、为什么有用、什么时候会“掉速”。

1. 先把问题说清楚：大模型推理为什么慢？

给模型发一句话，模型在第一个 token 出来之前，会做两个阶段：

慢主要不在“会不会算”，而在“有多少重复计算”。

如果你每次都把相同上下文从头算一遍，长上下文下开销会很快膨胀。

在解码每一步，模型会用到历史 token 之间的注意力信息。

这部分历史相关信息里，核心可以拆成两类：

每层每个头都会算一堆 K/V。它们本身不依赖“当前要预测的新 token”，而是依赖历史上下文。也就是说，前面已经算出来的 K/V 可以继续用。KV Cache 就是在这一步做“缓存”。

把一次解码想成“接力”：

有了 KV Cache：

这就是为什么 decode 阶段可以明显提速、稳定 throughput 的核心机制之一。

它们可能协同，但职责不同：

KV Cache 能加速，但不是所有情况下都神奇：

这也是很多服务里要做 batch/scheduler/分页策略的原因：

你优化的不是单一算子，而是“算力利用 + 显存 + 延迟”三者的平衡。

很多同学在看 vLLM 时会看到 PagedAttention。

它可以理解为对 KV Cache 的“内存管理增强”：

你可以把它想成：KV Cache 是概念，PagedAttention 是“把这个概念跑快、跑稳”的工程实现策略。

观察这几类指标：

如果你看到后续轮次显著更低，说明缓存链路在发挥作用。

如果你只记一条：

KV Cache 的价值，不在于“算法技巧”，而在于“减少重复计算的工程认知”。

对 AI Infra 来说，后面你会很快接触到：

这些问题的入口，几乎都从 KV Cache 能否被有效维护开始。

我会在下一篇把它和 PagedAttention 的内存块组织细节再往下打磨一版，尽量用一张图配清晰的例子来讲。