智谱 GLM-5.1 高速版 API 上线，400 tokens/s 声称刷新全球大模型速度上限

ref · 2026 年5 月 22 日 08:32

智谱于 5 月 22 日发布旗舰级高速模型 API"GLM-5.1-highspeed"，面向部分企业客户定向开放。该模型输出速度达 400 tokens/s，智谱称这一数字刷新了当前全球大模型厂商 API 的速度上限。与过去"高速即轻量"的行业惯例不同，GLM-5.1 高速版完整保留了旗舰级 GLM-5.1 的推理与编码能力，同时支持 200K 上下文窗口与 128K 最大输出，首次在国产大模型中实现旗舰级能力与极低延迟的生产级并行兼顾。

技术上，高速版由智谱 GLM 团队与 TileRT 团队联合打造，核心突破来自 TileRT 推理引擎——通过编译期静态编排与 Tile 级微任务调度消除冗余开销，逼近硬件物理极限；同时在调度系统层引入动态批处理与 KV 缓存调度以降低尾延迟，并对集群与网络进行系统级协同优化，确保 400 tokens/s 为稳定可用的生产级能力而非峰值。实测数据显示，代码生成效率较常规模型提升约 10 倍，可在 30 秒内完成复杂网页代码生成；Agent Swarm 场景下可瞬间调度 50 个不同人格并行运行。目前该 API 已适配 AI 编程、实时交互、商业决策和实时语音等低延迟敏感场景，定价暂未公开，需通过智谱 BigModel 开放平台申请企业资格获取。

IT之家