开源工具 KVCache.ai 直观呈现大模型 KV 缓存占用，DeepSeek V4 Flash 百万 token 仅需 2.9GB

ref · 22 مايو 2026، 5:12م

KVCache.ai 推出基于浏览器的开源 KV 缓存占用计算器，支持 DeepSeek V4 Flash、Qwen3、GLM、Kimi、MiniMax 等主流模型，可按上下文长度、精度（FP16/INT4 等）和批次大小实时计算所需显存。工具发布后迅速引发社区广泛关注，核心对比数据颇具冲击力：在 100 万 tokens 的上下文长度下，DeepSeek V4 Flash 的总 KV 缓存占用约 2.893 GiB，而 MiniMax 在同等条件下约需 236 GiB，两者相差近 82 倍。差距根源在于 DeepSeek 的多头潜在注意力（MLA）架构，通过将键值对压缩至低维潜变量大幅缩减存储开销，而非简单裁剪注意力头——这也直接解释了 DeepSeek API 缓存命中价格能做到行业最低水平的架构逻辑。X 用户 @teortaxesTex 转发称，该工具"终于有人做了，可以直观看出 DeepSeek 缓存定价背后的原因"；另有用户据此推算，DeepSeek 今年若推出 1000 万 tokens 超长上下文模型，经济上也是合理的。

X (@teortaxesTex) | KVCache.ai