社区测试：gpt-5.5 在 20 位数乘法题中不借助工具达 99.46% 正确率

ref · 2026 年5 月 22 日 17:04

X 用户 @cozyblaze265065 于 5 月 22 日发布非正式多位数乘法基准测试结果：在不调用任何外部工具的条件下，以 GPT-5.5 的"中等推理"（medium reasoning）档位、每格采样 7 次，完成了 20×20 共 400 道乘法题（每个乘数最多 20 位），正确率达 99.46%，仅在极少数高位数组合处出现失误。热力图显示"中等推理"设置的正确率覆盖远优于低推理档位，说明链式推理步骤的增加对多位数运算准确性有显著影响。AI 研究者 Raphaël Millière 转发评论称，"我偶尔还是会听到有人说 LLM 完全不会算术——这再次提醒大家，现在已经不是 2022 年了。"该测试为社区自发验证，非 OpenAI 官方基准，但方法论清晰，结果引发广泛关注。

X (@cozyblaze265065)