Goodfire 论文：大模型概念呈曲面流形，SAE 以"碎片平铺"逼近，并重构为逆伊辛问题

ref · 5월 21, 2026, 5:34오후

Goodfire 研究团队于 4 月 30 日在 arXiv 发布论文《Do Sparse Autoencoders Capture Concept Manifolds?》，系统检视大型语言模型内部概念的几何结构。研究发现，模型内部的概念并非如主流"线性表示假说"所预设的独立线性方向，而是高维曲面流形（manifold）。作为当前可解释性研究核心工具的稀疏自编码器（SAE），在面对这类曲面结构时，并不能直接捕捉其完整几何，而是通过"平铺"（tiling）与"碎裂"（shattering）将曲面切割为多个线性片段加以近似——论文将这种机制的行为规律予以形式化表征，并通过跨越 1800 至 1998 年历史时间轴的概念流形可视化加以展示。

此外，论文将无监督流形发现问题重新表述为"逆伊辛问题"（inverse Ising problem），借用统计物理中的推断框架提供更可解析的理论基础。Goodfire 同步开源了自动形状搜索工具，可从大模型激活值中自动识别模型"所用的几何形状"；其 Silico 平台亦提供流形发现托管服务。目前，Goodfire 的 SAE 工具已被用于解析 Llama 3.3 70B 等模型的内部表示，本次研究从几何学层面为 SAE 的能力边界提供了更系统的理论解释，也为机械可解释性（mechanistic interpretability）领域的下一步——直接从激活值无监督恢复特征几何——指出了方向。

GoodfireAI on X | arXiv 2604.28119