评测摘录 · OpenClaw

国产大模型核心能力评测：智谱、DeepSeek、MiniMax、Kimi、千问 Qwen、小米 MiMo

更新日期：2026.5.14

基于独立评测机构 Artificial Analysis 发布的最新 AI 模型基准测试结果，本文围绕 Agentic 智能指数 与 Coding Agent 指数 两大核心维度展开横向对比。这两项指标与日常代码开发需求和 OpenClaw、Harness 等通用 Agent 场景高度契合：

Agentic 能力直接决定模型自主规划复杂任务、调度外部工具、驱动自动化流程的水平
Coding Agent 能力则是评估模型代码生成、调试优化、代码库理解效率的核心依据。

从测试数据来看，国产头部大模型已全面跻身全球第一梯队，与 OpenAI、Anthropic 等海外厂商的顶尖产品差距显著缩小，且在性价比、国内生态适配性方面具备独特优势。

一、整体格局：国产第一梯队全面对标海外顶尖水平

1. Agentic 智能指数（通用 Agent 核心指标）

Artificial Analysis Agentic Index：GDPval-AA 与 τ²-Bench Telecom 等综合表现（分数越高越好）。Artificial Analysis Agentic 指数

该指数综合 GDPval-AA 真实世界任务执行能力与 τ²-Bench Telecom 工具调用能力两大基准，量化评估模型自主完成多步骤复杂任务的表现，是衡量 OpenClaw 自动化运营潜力的核心标准。

全球头部阵营：GPT-5.5（74 分）、Claude Opus 4.7（71 分）占据前二
国产第一梯队（65 分及以上）：MiMo-V2.5-Pro、DeepSeek V4 Pro (Max)、GLM-5.1 以 67 分并列全球第四，Kimi K2.6（66 分）、Qwen3.6 Max Preview（65 分） 紧随其后，与 GPT-5.4 的差距仅为 1–3 分。超过 Claude Sonnect 4.6。
国产第二梯队：Qwen3.6 Plus（62 分）、MiniMax-M2.7（61 分）、DeepSeek V4 Flash (Max)（61 分）。与 Claude Sonnect 4.6 基本持平。

2. Coding Agent 指数（代码核心指标）

Artificial Analysis Coding Agent Index：SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA 等综合 pass@1（分数越高越好）。Artificial Analysis Coding Agent 指数

该指数整合 SWE-Bench-Pro-Hard-AA 代码生成修复、Terminal-Bench v2 终端工具使用、SWE-Atlas-QnA 代码库理解三大测试维度，全面评估模型端到端完成软件工程任务的能力。

全球头部阵营：Cursor CLI Opus 4.7（61 分）、Codex GPT-5.5（60 分）、Claude Code Opus 4.7（60 分）位列前三
国产第一梯队：GLM-5.1 以 53 分排名全球第五，为国产模型首位。与 GPT-5.4 和 Opus 4.6 基本持平。
国产第二梯队：Kimi K2.6、DeepSeek V4 Pro (High) 以 50 分并列全球第七
注：本次编码代理指数共评测 13 款模型/代理组合，MiniMax、Qwen、MiMo 对应版本未纳入本次评测范围。待 Artificial Analysis 更新评测结果后，将更新本文。

二、国产核心厂商模型深度解析

1. GLM-5.1（智谱AI）：编码能力领跑国产，综合实力均衡

作为国产编码能力的标杆，GLM-5.1 在 Claude Code 框架下的代码生成、漏洞修复及大型代码库解读能力均领先其他国产模型，是技术开发场景的首选方案。其 Agentic 智能指数同样达到国产顶尖水平，能够同时支撑 OpenClaw 复杂流程的自主调度与底层工具的开发搭建。定价处于行业中等偏上水平，但如果能够购买 CodingPlan 个人使用，则依然划算，综合适配运营与开发双重核心需求。

缺点是算力瓶颈比较严重，CodingPlan 需要抢购，很难买到。

2. MiniMax-M2.7（稀宇科技）：低幻觉高可靠，响应效率优异

MiniMax-M2.7 的核心优势模型参数量比其他模型小，使得 CodingPlan 套餐最实惠、额度限制最小、倍率最高的。极速版套餐模型输出 Token 速率高，很少出现 429，可用性高于其他平台套餐。日常交互体验出色，适合作为 OpenClaw 等 Agent 场景中完成日常任务，作为辅助工具承担日常信息汇总、流程记录、常规咨询答疑等标准化任务。

3. DeepSeek（深度求索）：全梯度产品线覆盖，兼顾性能与成本

DeepSeek 构建了完整的产品矩阵，能够满足不同层级的需求。旗舰款 V4 Pro (Max) 综合能力均衡，Agentic 与编码能力均处于国产第一梯队，可胜任代码开发工作及 OpenClaw 核心复杂任务与调度；轻量款 V4 Flash (Max) 输出速度高达 75 tokens/s，成本极低，适合高并发、低延迟的常规任务调度。

同时由于 DeepSeek 独特的缓存技术，使得缓存命中率高，缓存价格低，按用量计费首选。

4. Kimi K2.6（月之暗面）：长上下文能力突出，编码功底扎实

Kimi K2.6 能力均衡，支持图像输入，模型代码能力优，较高强度的日常开发够用。购买 CodingPlan 送专属龙虾。Allegretto ￥199/月性价比高最高，适合作为代码开发场景主力使用。

5. Qwen（通义千问，阿里）：企业级生态完善，定制化能力强

Qwen3.6 Max Preview 的 Agentic 表现优秀，指令遵循能力与多场景适配性突出。性价比款 Qwen3.6 Plus 则进一步降低了使用门槛，适合大规模日常应用。但目前只剩下 Token Plan 套餐，性价比较低，个人使用不推荐。

6. MiMo-V2.5-Pro（小米）：Agentic 能力国产顶尖，性价比优势显著

MiMo-V2.5-Pro 的 Agentic 智能指数与 DeepSeek V4 Pro、GLM-5.1 并列国产第一，在多工具协同调度、复杂自主流程执行方面表现接近 GPT-5.4，是驱动 OpenClaw 全流程自动化的最优选择之一。

三、个人使用选型参考指南

结合代码开发需求及 OpenClaw 场景，可根据具体场景针对性选择：

复杂代码开发与生产级系统搭建：首选 GLM-5.1，其编码能力全面领先；Kimi K2.6 与 DeepSeek V4 Pro 可作为备选，满足常规开发与调试需求。
OpenClaw 核心与复杂任务：优先选择 GLM-5.1、DeepSeek V4 Pro、Kimi K2.6，三者 Agentic 能力均处于国产顶尖水平，能稳定支撑多工具协同与自主流程执行。
OpenClaw 日常任务：优先选择 MiniMax-M2.7 和 DeepSeek V4 Flash，其流畅的响应和高用量限制，能够满足标准化的日常助力需求。
其他专业需求综合：MiniMax-M2.7 是理想选择，便宜的价格和全天候流畅的响应在使用感受上最好。
日常聊天：其实推荐直接用豆包、千问，没必要自己搭建。

图表站点：Artificial Analysis。与上文截图完全一致的原始筛选链接：Agentic Index · Coding Agents。