Goodfire 研究团队于 4 月 30 日在 arXiv 发布论文《Do Sparse Autoencoders Capture Concept Manifolds?》,系统检视大型语言模型内部概念的几何结构。研究发现,模型内部的概念并非如主流"线性表示假说"所预设的独立线性方向,而是高维曲面流形(manifold)。作为当前可解释性研究核心工具的稀疏自编码器(SAE),在面对这类曲面结构时,并不能直接捕捉其完整几何,而是通过"平铺"(tiling)与"碎裂"(shattering)将曲面切割为多个线性片段加以近似——论文将这种机制的行为规律予以形式化表征,并通过跨越 1800 至 1998 年历史时间轴的概念流形可视化加以展示。
此外,论文将无监督流形发现问题重新表述为"逆伊辛问题"(inverse Ising problem),借用统计物理中的推断框架提供更可解析的理论基础。Goodfire 同步开源了自动形状搜索工具,可从大模型激活值中自动识别模型"所用的几何形状";其 Silico 平台亦提供流形发现托管服务。目前,Goodfire 的 SAE 工具已被用于解析 Llama 3.3 70B 等模型的内部表示,本次研究从几何学层面为 SAE 的能力边界提供了更系统的理论解释,也为机械可解释性(mechanistic interpretability)领域的下一步——直接从激活值无监督恢复特征几何——指出了方向。