智谱AI研发的GLM-5.1具备重新审视自身数百次迭代编码策略的能力-66安卓网

首页 → 热门资讯 → 软件教程 → 智谱AI研发的GLM-5.1具备重新审视自身数百次迭代编码策略的能力

智谱AI已推出新的GLM-5.1模型，采用MIT授权协议。有消息称，该模型在执行编码任务过程中，能够通过数百次迭代持续优化自身的处理方式。

智谱AI发布了GLM-5.1，这是一款针对长期运行的代理式编程任务打造的开源模型。其核心观点在于：当前的模型，包括智谱此前推出的GLM-5，在处理复杂问题时容易过早陷入思路停滞的状态。这些模型往往在初期能快速取得进展，但随后便会遭遇难以突破的瓶颈，即便投入更多的计算资源也无法有效解决这一问题。

GLM-5.1 本应通过反复审视自身策略、识别死胡同并尝试新方法来解决这个问题。智谱AI描述了“数百轮和数千次工具调用”的优化。

公司用三种情景来演示这一点，尽管这些场景均在内部进行。目前还没有独立评估。

GLM-5.1 在任务中途自动切换策略

在第一种场景下，GLM-5.1 需对向量数据库进行优化——这是一个能检索大规模数据集并找出相似条目的系统。其目标在于：在确保准确性不受影响的前提下，让每秒处理的搜索查询数量达到最大。依据Zhipu AI提供的数据，在一次包含50轮的标准测试过程中，Claude Opus 4.6以3547次查询/秒的成绩保持着最高纪录。

相反，智谱AI给予GLM-5.1无限次尝试。模特自行决定何时提交新版本以及下一步尝试什么。经过600多次迭代和6000多次工具调用，公司表示，查询量达到了每秒21,500次——大约是之前最佳水平的六倍。

智谱方面称，该模型在运行过程中多次对策略做出了根本性调整。大概在第90次迭代时，它从对所有数据开展穷尽搜索转变为采用更高效的聚类方法。而到了第240次迭代左右，它引入了两级流水线机制，先进行粗略的预排序操作，之后再实施精确过滤。在整个运行过程中，公司识别出了六次这样的结构性转变，且每一次转变都是由模型自身触发的。

GPU优化显示了进步，但没有达到顶峰

在第二种情景中，模型必须重写现有的机器学习代码以加快GPU运行速度。据智谱AI称，GLM-5.1实现了基线实现的3.6倍加速，并在后续阶段持续取得进展。相比之下，GLM-5则更早就达到了瓶颈。

Claude Opus 4.6在本次测试中明显领先，速度提升了4.2倍，且末期仍有提升空间。GLM-5.1相比前代延长了生产时间，但并未缩短与最强竞争对手的差距。

一个基于单一提示的Linux桌面

第三种情景最为罕见。GLM-5.1被要求构建一个完整的Linux桌面环境，作为一个网页应用——没有起始代码，没有中间指令。大多数型号提供一个基础外壳，带有任务栏和几个占位窗口，然后就完成任务，Zhipu AI表示。

GLM-5.1被放入一个循环，每轮后会回顾自己的输出，决定哪些还缺失或需要改进。经过八小时的开发，最终呈现了一个功能齐全的桌面环境，配备了文件浏览器、终端、文本编辑器、系统显示器、计算器和游戏，公司表示。

编程强，推理较弱

除了这三个演示，智谱AI还发布了一份基准表，呈现出更为详尽的对比情况。在编码领域，GLM-5.1在多项测试中表现领先或与竞品不相上下。在软件工程基准测试SWE-Bench Pro中，其得分达到58.4%，在所有参与测试的免费模型里位居第一，略高于GPT-5.4的57.7%和Claude Opus 4.6的57.3%。而在网络安全基准测试CyberGym中，它以68.7分的成绩拿下最高分。不过智谱AI也指出，Gemini 3.1 Pro和GPT-5.4因安全考量拒绝执行部分任务，这很可能导致它们的得分被拉低。

在知识测试“人类最后考试”中，该模型的得分是31%，低于Gemini 3.1 Pro的45分和GPT-5.4的39.8分。而在科学问题测试（GPQA-Diamond）中，它也以86.2分的成绩落后于Gemini 3.1 Pro的94.3分与GPT-5.4的92分。

基于代理的任务表现同样存在差异。在《自动售货台2》模拟自动售货机业务的任务中，GLM-5.1最终剩余余额为5,634美元，而Claude Opus 4.6的收益达到8,018美元，远高于前者。在自然语言转存储库（NL2Repo）的生成任务上，Claude Opus 4.6也表现突出，其49.8的得分显著领先于GLM-5.1的42.7。

在人工智能分析指数中，该模型目前仅次于Anthropic的Claude 4.6 Sonnet。

智谱AI公开指出了剩余的挑战：模型需要更早识别死胡同，在数千次工具调用中保持一致性，并且在没有明确指标的情况下可靠地自我评估任务。公司表示，GLM-5.1是朝这个方向迈出的“第一步”。

该模型已在HUGGING Face与ModelScope平台以MIT许可协议发布，可通过api.z.ai和BigModel.cn这两个API平台进行访问。它能够与Claude Code、OpenClaw等编码代理工具实现集成。在本地部署层面，智谱AI提供了对vLLM和SGLang推理框架的支持，相关设置指南可在GitHub仓库中找到。而Z.ai的聊天界面预计会在接下来的几天内正式开放访问。

智谱AI正在迅速扩展其模型阵容

智谱AI近期推出了GLM-5V-Turbo，这是一款多模态编码模型，可直接从图像和视频生成代码。在此之前，该公司曾于今年二月发布GLM-5，这是一个拥有7440亿参数的开放权重模型，目标是在编码任务上与顶尖专有模型展开竞争。GLM-5.1大概率会在这两者的基础上进一步发展，并增添智谱AI期望借此与中国同行形成差异化的前沿能力。当前竞争依旧激烈：除了智谱AI外，Moonshot AI的Kimi K2.5以及阿里巴巴的Qwen3.5也在积极布局自主编码代理市场。

智谱AI并不是唯一押注长期AI代理的公司。2026年初，Cursor让数百名GPT-5.2代理花了一周时间构建一个网页浏览器。根据软件改进小组的分析，超过三百万行的Rust代码几乎无法维护，排名在所有评估软件系统中排名倒数5%。

相关资讯

相关下载

浏览排行

游戏攻略: 更多+

1梦幻西游五更寒看戏玩法指南梦幻西游五更寒BOSS击杀技巧 2王者荣耀改名卡的获取方法是什么，有没有免费领取的途径呢 3逆水寒手游职业怎么选攻略逆水寒手游藏宝阁位置在哪 4永劫无间里双节棍的科目四指的是什么？永劫无间中双节棍的同源武器都有哪些呢？ 5王者荣耀S38赛季的开启时间是什么时候？这个赛季会推出哪些新英雄呢？ 6三角洲行动里炮兵齐射需要按哪个按键？具体的释放步骤和操作方法是什么 7王者荣耀名侦探柯南联动皮肤的上线时间是什么时候，获取方式又有哪些呢 8炉石天马的领取方法与获取攻略