我让 Claude Code 当裁判，横评 DeepSeek V4 和 GLM-5.1

最近，各个编程交流群里就开始了对 V4 和各家模型进行大量比较、讨论。其中讨论到的国产模型，最多的一个就是智谱的 GLM 了。大家讨论的话题包括：说是满血的glm5.1，glm5.1应该是国内最强，GLM是真的贵，glm的训练方法+ds的模型架构，glm可能是占了先机。不一定是最强。

两个国产开源模型，一个自己被认为更 Opus，一个主动承认差距……

而在上月的 GLM 5.1 发布后，很多开发者也开始使用它的 Coding Plan。那要不要切到 DeepSeek Coding Plan 呢？

说实话，其他人的实测我也不大会信，我还是希望自己动手感受。虽然我测也不一定全面……

索性，我就老办法，使出我的惯用懒人招式：让 Claude Code 自己出题自己当裁判，给两个模型做了一次自动化的横评对比。

测试方法

当然不能直接调 API 来测，我选择的是在 Claude Code 中来进行测试对比。

我一直有智谱的 GLM Coding Plan，就不用再充钱了。而为了这次测试我也是给 DeepSeek 小充了 200 块钱，我完全不心疼，DeepSeek V4 的发布，至少值得我充点钱致敬一下。

而我们知道，Claude Code 是支持通过 --settings 参数切换不同的模型后端，配置文件可以设置不同的API端点。

为了便于我们在 Claude Code 中使用，DeepSeek 和智谱也都支持 anthropic 的协议并推出了对应的端点，所以换个 base URL 和模型名就可以直接使用了。

因为日常经常切换及懒，我在 shell 里配了一堆 alias，平时就用不同的命令来回切。如果你之前没用过 alias，可以找个 AI 学一下，用过就会觉得……很香。

而整个测试，我全都是让 Claude Code（Opus 4.7）自己完成的：让它自己设计测试方案，自己写 prompt，分别使用 GLM 5.1 和 DeepSeek V4 Pro 跑同样的任务，最后自己评判结果。

整个过程我几乎零动手，主要是花了 3 分钟动嘴语音输入要求，然后就是坐在旁边看它自己跑。

Claude Code 自动准备测试并启动 4 个子 agent，它自己创建了隔离目录、写好了 buggy code、转换了数据格式，然后同时启动了 4 个子 agent 并行跑测试。

多样性方面，Claude Code 一共设置了 4 个 case，覆盖 bug 修复、代码生成、数据分析、可视化四个维度。

每个 case 两个模型拿到完全相同的 prompt，在完全隔离的工作目录里各自完成任务。

公平竞争。

Case 1：并发 Bug

第一个测试，是让模型定位并修复一段有并发问题的 Python 连接池代码，大约 150 行。

这段代码模拟了一个生产环境里常见的场景：异步 HTTP 连接池，带自动重试和健康检查。问题描述是「50+ 并发请求时偶发 connection pool exhausted 错误」。

当然，问题代码也是 Claude 裁判给生成的。里面埋了几个真实的并发 bug：semaphore 泄漏、TOCTOU 竞态、未加锁的计数器等。

GLM 5.1 找到了 5 个问题。根因分析正确。特别是 semaphore 泄漏的根因分析，GLM 5.1 直接指出了「每次 acquire 失败后 semaphore 永久丢失一个 slot，导致池子容量持续缩小」的正反馈循环。

GLM 5.1 在修复后自己跑了一遍测试，50 个并发 worker 全部通过，连接数精确等于 max_connections。

DeepSeek V4 Pro 也找到了 5 个问题。前 3 个和 GLM 完全一致。不同的是第 4 个：DeepSeek 发现了一个 UnboundLocalError 的隐患，当 acquire() 在第一次重试时失败，conn 变量可能还没定义就进了 finally 块。这个问题 GLM 没有提到。

DeepSeek 还给每个 bug 标了严重等级（CRITICAL / HIGH / MEDIUM / LOW），分析文档比 GLM 长了约 40%。

Claude Code 判定：这轮基本打平。

GLM 的修复更干净利落，DeepSeek 的分析更细致。如果是交给团队做 code review，两份报告都能用。

Case 2：从零写代码

第二个测试：从零实现一个生产级的滑动窗口 rate limiter。

Claude 给出的要求是：支持内存和 Redis 双后端、多规则组合（比如 100 次/分钟且 1000 次/小时）、线程安全、异步兼容、带完整 pytest 测试。

GLM 5.1：2 分钟完成，56 个测试全部通过。

代码共 316 行，简洁且够用。测试覆盖了基本限流、多规则、窗口滑动、并发安全等场景。不过有一个小瑕疵：README 里的 API 示例和实际代码对不上（文档写的是 is_allowed()，实际是 acquire()）。

DeepSeek V4 Pro：17 分钟完成，63/65 个测试通过。

代码共 543 行，架构设计更成熟，有命名规则、定时清理、deque 做 O(1) 剪枝、条件化 Redis 导入等。

README 和代码一致。但有 2 个测试失败：一个是 frozen dataclass 的测试写法有误，另一个是清理定时器的竞态。

Claude Code 判定：这轮 GLM 赢，赢在可靠性。

100% 测试通过 vs 96.9%，速度比 DeepSeek 快了 8 倍。DeepSeek 的架构想法更多，但……「想太多」有时候反而引入了新问题。

Case 3：数据分析

第三个测试，Claude Code 找到了一个之前做过的工作，于是出的题完全换了个不同的方向。

它把公众号近两个月的流量数据（日均阅读、渠道分布、文章级别统计）扔给了两个模型，让它们各自写一份数据分析报告。

GLM 5.1 的报告 287 行，亮点在三个地方。

它做了一个标题关键词频率表，统计关键词的出现频次和对应平均阅读量……这对搞自媒体的人来说，还是挺实用的。

推荐渠道的增长时间线也有很细致的追踪：从 3 月上旬的 25.8% 到后来的 48.4%，再到高峰期接近 65%。

另外，它把 54 天的流量拆成了「起步期→爆发期→稳定期」三个阶段，易读易懂，清晰准确。

DeepSeek V4 Pro 的报告 372 行，篇幅更长，有一些独到的分析。

它做了一个前后 25% 文章的分位数对比，发现社交分享渠道（聊天会话 + 朋友圈）在爆文中占 18.3%，在普通文章中只有 6.6%。

从这里得出了一个结论：决定文章能否爆发的，其实是社交分享，推荐算法只是放大器。

它还注意到流量高峰后如果没有追发新内容，会错过流量窗口。

建议方面，也比 GLM 要更具体和可落地，而且带有量化的阈值：「文章过 5 万时 24 小时内追发」「内容配比 50/30/20」之类。

Claude Code 判定：这轮 GLM 略胜。

分析维度更多样，对数据结构的理解也更准确。DeepSeek 在建议的可操作性上更强，但整体不如 GLM 扎实。

Case 4：仪表盘

最后一个测试：用同一份数据，生成一个可交互的 HTML 可视化仪表盘。

GLM 5.1 用 ECharts 做了一个深色科技风的仪表盘：6 个统计卡片、6 个图表（堆叠面积趋势图、环形饼图、横向 Top 10 文章、散点回归图、互动指标趋势图）。图表数量和信息密度都比要求的更多更细致。

DeepSeek V4 Pro 则用 Chart.js 做了一个浅色主题的仪表盘：微信绿配色，4 个图表，整体更简洁更有微信味道。

甚至散点图里还带了 R² 回归值。不过 Top 10 文章的条形图只显示了序号，没有文章标题，算是个小缺陷。

Claude Code 判定：这轮各有胜负。

GLM 的内容更丰富，6 个图表覆盖了更多分析维度。DeepSeek 的 UI 配色更贴合微信的视觉体系，看着更专业。

速度差异

另外还有一个很重要的差异：速度。

在 Case 2 中，GLM 5.1 用了 2 分钟，DeepSeek V4 Pro 用了 17 分钟。其他几个 case 也有类似的差距。

要知道，模型跑得快意味着工具调用的反馈循环更短，整体效率更高。GLM 在 SWE-Bench Pro 上的第一名，可能和这种「快速试错、快速修正」的能力有关系。

当然，DeepSeek V4 Pro 目前的推理速度受限于算力，且可能由于刚推出而过于火爆。在 V4 的技术报告里也有提到，等华为昇腾 950 超级节点下半年大规模上线后，Pro 的速度和价格都会有明显改善。

总成绩

Case	GLM 5.1	DeepSeek V4 Pro
Bug 修复	找到 5 bug，修复干净	找到 5 bug，分析更细
代码生成	100% 测试通过，2 分钟	96.9% 通过，17 分钟
数据分析	分析维度更多	建议更可操作
仪表盘	内容更丰富（6 图）	UI 更专业

从这 4 个 case 来看，GLM 5.1 在代码的可靠性和执行效率上确实有优势。DeepSeek V4 Pro 在架构设计和分析深度上也有自己的长处，但执行层面会出小问题。

这和社区的体感基本一致：在非顶级模型（Claude、GPT 之外）的 coding 能力排名里，GLM 5.1 还是比较能打，排名靠前。而 DeepSeek 由于刚推出，虽然实力已然非常强劲，但在速度和模型优化方面还需要继续打磨一下。

GLM 5.1 刚推出来时，也有被诟病速度太慢。现在显然就快了巨多，希望/相信 DeepSeek 很快也能追上来。

局限

需要声明的是，这只是 4 个 case 的测试，算不上全面的 benchmark。

Bug 修复只用了一段代码，代码生成只测了一种类型，数据分析和可视化也只用了一份数据。真正的全面评测需要成百上千个 case，这个工作量不是这一篇文章里的几个 case 就能全面覆盖的。

以及裁判 Claude Code 自身，也有其局限性。

另外，DeepSeek V4 在多模态上目前确实还有待补齐，这也是它即将发力的方向。而 GLM 5.1 在综合能力上更全面一些，尤其是在实际工程任务中的表现。

不过这两家都在快速迭代，希望国产模型们，都能卷得更猛一些，甚至能在 26 年内能卷番国外的两家闭源模型。

如果你也想便捷地体验和对比这些优秀的国产AI模型，推荐使用 TreeRouter API中转站。它支持一键调用DeepSeek、GLM、GPT、Claude等主流AI模型的API接口，无需分别申请和管理多个平台密钥，一站式完成多模型的调用、测试和对比，是开发者进行模型横评和项目集成的得力工具。

我让 Claude Code 当裁判，横评 DeepSeek V4 和 GLM-5.1

测试方法

Case 1：并发 Bug

Case 2：从零写代码

Case 3：数据分析

Case 4：仪表盘

速度差异

总成绩

局限

聚合 40+ 顶尖厂商，稳定调度 300+ 核心模型

GLM-5.2 vs MiniMax 实测！别误判模型结构化输出能力

Anthropic、OpenAI上市，引发AI赛道震荡

32款AI编程工具全测评新手到大神选型指南

腾讯AI三年代码AI率破90% 企业转型最大坑竟非技术

测试方法

Case 1：并发 Bug

Case 2：从零写代码

Case 3：数据分析

Case 4：仪表盘

速度差异

总成绩

局限

聚合 40+ 顶尖厂商，稳定调度 300+ 核心模型

延伸阅读

GLM-5.2 vs MiniMax 实测！别误判模型结构化输出能力

Anthropic、OpenAI上市，引发AI赛道震荡

32款AI编程工具全测评 新手到大神选型指南

腾讯AI三年代码AI率破90% 企业转型最大坑竟非技术

32款AI编程工具全测评新手到大神选型指南