开源工具 KVCache.ai 直观呈现大模型 KV 缓存占用,DeepSeek V4 Flash 百万 token 仅需 2.9GB

KVCache.ai 推出基于浏览器的开源 KV 缓存占用计算器,支持 DeepSeek V4 Flash、Qwen3、GLM、Kimi、MiniMax 等主流模型,可按上下文长度、精度(FP16/INT4 等)和批次大小实时计算所需显存。工具发布后迅速引发社区广泛关注,核心对比数据颇具冲击力:在 100 万 tokens 的上下文长度下,DeepSeek V4 Flash 的总 KV 缓存占用约 2.893 GiB,而 MiniMax 在同等条件下约需 236 GiB,两者相差近 82 倍。差距根源在于 DeepSeek 的多头潜在注意力(MLA)架构,通过将键值对压缩至低维潜变量大幅缩减存储开销,而非简单裁剪注意力头——这也直接解释了 DeepSeek API 缓存命中价格能做到行业最低水平的架构逻辑。X 用户 @teortaxesTex 转发称,该工具"终于有人做了,可以直观看出 DeepSeek 缓存定价背后的原因";另有用户据此推算,DeepSeek 今年若推出 1000 万 tokens 超长上下文模型,经济上也是合理的。

X (@teortaxesTex) | KVCache.ai