X 用户 @cozyblaze265065 于 5 月 22 日发布非正式多位数乘法基准测试结果:在不调用任何外部工具的条件下,以 GPT-5.5 的"中等推理"(medium reasoning)档位、每格采样 7 次,完成了 20×20 共 400 道乘法题(每个乘数最多 20 位),正确率达 99.46%,仅在极少数高位数组合处出现失误。热力图显示"中等推理"设置的正确率覆盖远优于低推理档位,说明链式推理步骤的增加对多位数运算准确性有显著影响。AI 研究者 Raphaël Millière 转发评论称,"我偶尔还是会听到有人说 LLM 完全不会算术——这再次提醒大家,现在已经不是 2022 年了。"该测试为社区自发验证,非 OpenAI 官方基准,但方法论清晰,结果引发广泛关注。