智谱于 5 月 22 日发布旗舰级高速模型 API"GLM-5.1-highspeed",面向部分企业客户定向开放。该模型输出速度达 400 tokens/s,智谱称这一数字刷新了当前全球大模型厂商 API 的速度上限。与过去"高速即轻量"的行业惯例不同,GLM-5.1 高速版完整保留了旗舰级 GLM-5.1 的推理与编码能力,同时支持 200K 上下文窗口与 128K 最大输出,首次在国产大模型中实现旗舰级能力与极低延迟的生产级并行兼顾。
技术上,高速版由智谱 GLM 团队与 TileRT 团队联合打造,核心突破来自 TileRT 推理引擎——通过编译期静态编排与 Tile 级微任务调度消除冗余开销,逼近硬件物理极限;同时在调度系统层引入动态批处理与 KV 缓存调度以降低尾延迟,并对集群与网络进行系统级协同优化,确保 400 tokens/s 为稳定可用的生产级能力而非峰值。实测数据显示,代码生成效率较常规模型提升约 10 倍,可在 30 秒内完成复杂网页代码生成;Agent Swarm 场景下可瞬间调度 50 个不同人格并行运行。目前该 API 已适配 AI 编程、实时交互、商业决策和实时语音等低延迟敏感场景,定价暂未公开,需通过智谱 BigModel 开放平台申请企业资格获取。