智谱AI已推出新的GLM-5.1模型,采用MIT授权协议。有消息称,该模型在执行编码任务过程中,能够通过数百次迭代持续优化自身的处理方式。
智谱AI发布了GLM-5.1,这是一款针对长期运行的代理式编程任务打造的开源模型。其核心观点在于:当前的模型,包括智谱此前推出的GLM-5,在处理复杂问题时容易过早陷入思路停滞的状态。这些模型往往在初期能快速取得进展,但随后便会遭遇难以突破的瓶颈,即便投入更多的计算资源也无法有效解决这一问题。
GLM-5.1 本应通过反复审视自身策略、识别死胡同并尝试新方法来解决这个问题。智谱AI描述了“数百轮和数千次工具调用”的优化。
公司用三种情景来演示这一点,尽管这些场景均在内部进行。目前还没有独立评估。
GLM-5.1 在任务中途自动切换策略
在第一种场景下,GLM-5.1 需对向量数据库进行优化——这是一个能检索大规模数据集并找出相似条目的系统。其目标在于:在确保准确性不受影响的前提下,让每秒处理的搜索查询数量达到最大。依据Zhipu AI提供的数据,在一次包含50轮的标准测试过程中,Claude Opus 4.6以3547次查询/秒的成绩保持着最高纪录。
相反,智谱AI给予GLM-5.1无限次尝试。模特自行决定何时提交新版本以及下一步尝试什么。经过600多次迭代和6000多次工具调用,公司表示,查询量达到了每秒21,500次——大约是之前最佳水平的六倍。
智谱方面称,该模型在运行过程中多次对策略做出了根本性调整。大概在第90次迭代时,它从对所有数据开展穷尽搜索转变为采用更高效的聚类方法。而到了第240次迭代左右,它引入了两级流水线机制,先进行粗略的预排序操作,之后再实施精确过滤。在整个运行过程中,公司识别出了六次这样的结构性转变,且每一次转变都是由模型自身触发的。
GPU优化显示了进步,但没有达到顶峰
在第二种情景中,模型必须重写现有的机器学习代码以加快GPU运行速度。据智谱AI称,GLM-5.1实现了基线实现的3.6倍加速,并在后续阶段持续取得进展。相比之下,GLM-5则更早就达到了瓶颈。
Claude Opus 4.6在本次测试中明显领先,速度提升了4.2倍,且末期仍有提升空间。GLM-5.1相比前代延长了生产时间,但并未缩短与最强竞争对手的差距。
一个基于单一提示的Linux桌面
第三种情景最为罕见。GLM-5.1被要求构建一个完整的Linux桌面环境,作为一个网页应用——没有起始代码,没有中间指令。大多数型号提供一个基础外壳,带有任务栏和几个占位窗口,然后就完成任务,Zhipu AI表示。
GLM-5.1被放入一个循环,每轮后会回顾自己的输出,决定哪些还缺失或需要改进。经过八小时的开发,最终呈现了一个功能齐全的桌面环境,配备了文件浏览器、终端、文本编辑器、系统显示器、计算器和游戏,公司表示。
编程强,推理较弱
除了这三个演示,智谱AI还发布了一份基准表,呈现出更为详尽的对比情况。在编码领域,GLM-5.1在多项测试中表现领先或与竞品不相上下。在软件工程基准测试SWE-Bench Pro中,其得分达到58.4%,在所有参与测试的免费模型里位居第一,略高于GPT-5.4的57.7%和Claude Opus 4.6的57.3%。而在网络安全基准测试CyberGym中,它以68.7分的成绩拿下最高分。不过智谱AI也指出,Gemini 3.1 Pro和GPT-5.4因安全考量拒绝执行部分任务,这很可能导致它们的得分被拉低。
在知识测试“人类最后考试”中,该模型的得分是31%,低于Gemini 3.1 Pro的45分和GPT-5.4的39.8分。而在科学问题测试(GPQA-Diamond)中,它也以86.2分的成绩落后于Gemini 3.1 Pro的94.3分与GPT-5.4的92分。
基于代理的任务表现同样存在差异。在《自动售货台2》模拟自动售货机业务的任务中,GLM-5.1最终剩余余额为5,634美元,而Claude Opus 4.6的收益达到8,018美元,远高于前者。在自然语言转存储库(NL2Repo)的生成任务上,Claude Opus 4.6也表现突出,其49.8的得分显著领先于GLM-5.1的42.7。
在人工智能分析指数中,该模型目前仅次于Anthropic的Claude 4.6 Sonnet。
智谱AI公开指出了剩余的挑战:模型需要更早识别死胡同,在数千次工具调用中保持一致性,并且在没有明确指标的情况下可靠地自我评估任务。公司表示,GLM-5.1是朝这个方向迈出的“第一步”。
该模型已在HUGGING Face与ModelScope平台以MIT许可协议发布,可通过api.z.ai和BigModel.cn这两个API平台进行访问。它能够与Claude Code、OpenClaw等编码代理工具实现集成。在本地部署层面,智谱AI提供了对vLLM和SGLang推理框架的支持,相关设置指南可在GitHub仓库中找到。而Z.ai的聊天界面预计会在接下来的几天内正式开放访问。
智谱AI正在迅速扩展其模型阵容
智谱AI近期推出了GLM-5V-Turbo,这是一款多模态编码模型,可直接从图像和视频生成代码。在此之前,该公司曾于今年二月发布GLM-5,这是一个拥有7440亿参数的开放权重模型,目标是在编码任务上与顶尖专有模型展开竞争。GLM-5.1大概率会在这两者的基础上进一步发展,并增添智谱AI期望借此与中国同行形成差异化的前沿能力。当前竞争依旧激烈:除了智谱AI外,Moonshot AI的Kimi K2.5以及阿里巴巴的Qwen3.5也在积极布局自主编码代理市场。
智谱AI并不是唯一押注长期AI代理的公司。2026年初,Cursor让数百名GPT-5.2代理花了一周时间构建一个网页浏览器。根据软件改进小组的分析,超过三百万行的Rust代码几乎无法维护,排名在所有评估软件系统中排名倒数5%。