最近,各个编程交流群里就开始了对 V4 和各家模型进行大量比较、讨论。其中讨论到的国产模型,最多的一个就是智谱的 GLM 了。大家讨论的话题包括:说是满血的glm5.1,glm5.1应该是国内最强,GLM是真的贵,glm的训练方法+ds的模型架构,glm可能是占了先机。不一定是最强。

两个国产开源模型,一个自己被认为更 Opus,一个主动承认差距……

而在上月的 GLM 5.1 发布后,很多开发者也开始使用它的 Coding Plan。那要不要切到 DeepSeek Coding Plan 呢?

说实话,其他人的实测我也不大会信,我还是希望自己动手感受。虽然我测也不一定全面……

索性,我就老办法,使出我的惯用懒人招式:让 Claude Code 自己出题自己当裁判,给两个模型做了一次自动化的横评对比。

测试方法

当然不能直接调 API 来测,我选择的是在 Claude Code 中来进行测试对比。

我一直有智谱的 GLM Coding Plan,就不用再充钱了。而为了这次测试我也是给 DeepSeek 小充了 200 块钱,我完全不心疼,DeepSeek V4 的发布,至少值得我充点钱致敬一下。

而我们知道,Claude Code 是支持通过 --settings 参数切换不同的模型后端,配置文件可以设置不同的API端点。

为了便于我们在 Claude Code 中使用,DeepSeek 和 智谱也都支持 anthropic 的协议并推出了对应的端点,所以换个 base URL 和模型名就可以直接使用了。

因为日常经常切换及懒,我在 shell 里配了一堆 alias,平时就用不同的命令来回切。如果你之前没用过 alias,可以找个 AI 学一下,用过就会觉得……很香。

而整个测试,我全都是让 Claude Code(Opus 4.7)自己完成的:让它自己设计测试方案,自己写 prompt,分别使用 GLM 5.1 和 DeepSeek V4 Pro 跑同样的任务,最后自己评判结果。

整个过程我几乎零动手,主要是花了 3 分钟动嘴语音输入要求,然后就是坐在旁边看它自己跑。

Claude Code 自动准备测试并启动 4 个子 agent,它自己创建了隔离目录、写好了 buggy code、转换了数据格式,然后同时启动了 4 个子 agent 并行跑测试。

多样性方面,Claude Code 一共设置了 4 个 case,覆盖 bug 修复、代码生成、数据分析、可视化四个维度。

每个 case 两个模型拿到完全相同的 prompt,在完全隔离的工作目录里各自完成任务。

公平竞争。

Case 1:并发 Bug

第一个测试,是让模型定位并修复一段有并发问题的 Python 连接池代码,大约 150 行。

这段代码模拟了一个生产环境里常见的场景:异步 HTTP 连接池,带自动重试和健康检查。问题描述是「50+ 并发请求时偶发 connection pool exhausted 错误」。

当然,问题代码也是 Claude 裁判给生成的。里面埋了几个真实的并发 bug:semaphore 泄漏、TOCTOU 竞态、未加锁的计数器等。

GLM 5.1 找到了 5 个问题。根因分析正确。特别是 semaphore 泄漏的根因分析,GLM 5.1 直接指出了「每次 acquire 失败后 semaphore 永久丢失一个 slot,导致池子容量持续缩小」的正反馈循环。

GLM 5.1 在修复后自己跑了一遍测试,50 个并发 worker 全部通过,连接数精确等于 max_connections。

DeepSeek V4 Pro 也找到了 5 个问题。前 3 个和 GLM 完全一致。不同的是第 4 个:DeepSeek 发现了一个 UnboundLocalError 的隐患,当 acquire() 在第一次重试时失败,conn 变量可能还没定义就进了 finally 块。这个问题 GLM 没有提到。

DeepSeek 还给每个 bug 标了严重等级(CRITICAL / HIGH / MEDIUM / LOW),分析文档比 GLM 长了约 40%。

Claude Code 判定:这轮基本打平。

GLM 的修复更干净利落,DeepSeek 的分析更细致。如果是交给团队做 code review,两份报告都能用。

Case 2:从零写代码

第二个测试:从零实现一个生产级的滑动窗口 rate limiter。

Claude 给出的要求是:支持内存和 Redis 双后端、多规则组合(比如 100 次/分钟且 1000 次/小时)、线程安全、异步兼容、带完整 pytest 测试。

GLM 5.1:2 分钟完成,56 个测试全部通过。

代码共 316 行,简洁且够用。测试覆盖了基本限流、多规则、窗口滑动、并发安全等场景。不过有一个小瑕疵:README 里的 API 示例和实际代码对不上(文档写的是 is_allowed(),实际是 acquire())。

DeepSeek V4 Pro:17 分钟完成,63/65 个测试通过。

代码共 543 行,架构设计更成熟,有命名规则、定时清理、deque 做 O(1) 剪枝、条件化 Redis 导入等。

README 和代码一致。但有 2 个测试失败:一个是 frozen dataclass 的测试写法有误,另一个是清理定时器的竞态。

Claude Code 判定:这轮 GLM 赢,赢在可靠性。

100% 测试通过 vs 96.9%,速度比 DeepSeek 快了 8 倍。DeepSeek 的架构想法更多,但……「想太多」有时候反而引入了新问题。

Case 3:数据分析

第三个测试,Claude Code 找到了一个之前做过的工作,于是出的题完全换了个不同的方向。

它把公众号近两个月的流量数据(日均阅读、渠道分布、文章级别统计)扔给了两个模型,让它们各自写一份数据分析报告。

GLM 5.1 的报告 287 行,亮点在三个地方。

它做了一个标题关键词频率表,统计关键词的出现频次和对应平均阅读量……这对搞自媒体的人来说,还是挺实用的。

推荐渠道的增长时间线也有很细致的追踪:从 3 月上旬的 25.8% 到后来的 48.4%,再到高峰期接近 65%。

另外,它把 54 天的流量拆成了「起步期→爆发期→稳定期」三个阶段,易读易懂,清晰准确。

DeepSeek V4 Pro 的报告 372 行,篇幅更长,有一些独到的分析。

它做了一个前后 25% 文章的分位数对比,发现社交分享渠道(聊天会话 + 朋友圈)在爆文中占 18.3%,在普通文章中只有 6.6%。

从这里得出了一个结论:决定文章能否爆发的,其实是社交分享,推荐算法只是放大器。

它还注意到流量高峰后如果没有追发新内容,会错过流量窗口。

建议方面,也比 GLM 要更具体和可落地,而且带有量化的阈值:「文章过 5 万时 24 小时内追发」「内容配比 50/30/20」之类。

Claude Code 判定:这轮 GLM 略胜。

分析维度更多样,对数据结构的理解也更准确。DeepSeek 在建议的可操作性上更强,但整体不如 GLM 扎实。

Case 4:仪表盘

最后一个测试:用同一份数据,生成一个可交互的 HTML 可视化仪表盘。

GLM 5.1 用 ECharts 做了一个深色科技风的仪表盘:6 个统计卡片、6 个图表(堆叠面积趋势图、环形饼图、横向 Top 10 文章、散点回归图、互动指标趋势图)。图表数量和信息密度都比要求的更多更细致。

DeepSeek V4 Pro 则用 Chart.js 做了一个浅色主题的仪表盘:微信绿配色,4 个图表,整体更简洁更有微信味道。

甚至散点图里还带了 R² 回归值。不过 Top 10 文章的条形图只显示了序号,没有文章标题,算是个小缺陷。

Claude Code 判定:这轮各有胜负。

GLM 的内容更丰富,6 个图表覆盖了更多分析维度。DeepSeek 的 UI 配色更贴合微信的视觉体系,看着更专业。

速度差异

另外还有一个很重要的差异:速度。

在 Case 2 中,GLM 5.1 用了 2 分钟,DeepSeek V4 Pro 用了 17 分钟。其他几个 case 也有类似的差距。

要知道,模型跑得快意味着工具调用的反馈循环更短,整体效率更高。GLM 在 SWE-Bench Pro 上的第一名,可能和这种「快速试错、快速修正」的能力有关系。

当然,DeepSeek V4 Pro 目前的推理速度受限于算力,且可能由于刚推出而过于火爆。在 V4 的技术报告里也有提到,等华为昇腾 950 超级节点下半年大规模上线后,Pro 的速度和价格都会有明显改善。

总成绩

Case GLM 5.1 DeepSeek V4 Pro
Bug 修复 找到 5 bug,修复干净 找到 5 bug,分析更细
代码生成 100% 测试通过,2 分钟 96.9% 通过,17 分钟
数据分析 分析维度更多 建议更可操作
仪表盘 内容更丰富(6 图) UI 更专业

从这 4 个 case 来看,GLM 5.1 在代码的可靠性和执行效率上确实有优势。DeepSeek V4 Pro 在架构设计和分析深度上也有自己的长处,但执行层面会出小问题。

这和社区的体感基本一致:在非顶级模型(Claude、GPT 之外)的 coding 能力排名里,GLM 5.1 还是比较能打,排名靠前。而 DeepSeek 由于刚推出,虽然实力已然非常强劲,但在速度和模型优化方面还需要继续打磨一下。

GLM 5.1 刚推出来时,也有被诟病速度太慢。现在显然就快了巨多,希望/相信 DeepSeek 很快也能追上来。

局限

需要声明的是,这只是 4 个 case 的测试,算不上全面的 benchmark。

Bug 修复只用了一段代码,代码生成只测了一种类型,数据分析和可视化也只用了一份数据。真正的全面评测需要成百上千个 case,这个工作量不是这一篇文章里的几个 case 就能全面覆盖的。

以及裁判 Claude Code 自身,也有其局限性。

另外,DeepSeek V4 在多模态上目前确实还有待补齐,这也是它即将发力的方向。而 GLM 5.1 在综合能力上更全面一些,尤其是在实际工程任务中的表现。

不过这两家都在快速迭代,希望国产模型们,都能卷得更猛一些,甚至能在 26 年内能卷番国外的两家闭源模型。

如果你也想便捷地体验和对比这些优秀的国产AI模型,推荐使用 TreeRouter API中转站。它支持一键调用DeepSeek、GLM、GPT、Claude等主流AI模型的API接口,无需分别申请和管理多个平台密钥,一站式完成多模型的调用、测试和对比,是开发者进行模型横评和项目集成的得力工具。