最近,各个编程交流群里就开始了对 V4 和各家模型进行大量比较、讨论。其中讨论到的国产模型,最多的一个就是智谱的 GLM 了。大家讨论的话题包括:说是满血的glm5.1,glm5.1应该是国内最强,GLM是真的贵,glm的训练方法+ds的模型架构,glm可能是占了先机。不一定是最强。
两个国产开源模型,一个自己被认为更 Opus,一个主动承认差距……
而在上月的 GLM 5.1 发布后,很多开发者也开始使用它的 Coding Plan。那要不要切到 DeepSeek Coding Plan 呢?
说实话,其他人的实测我也不大会信,我还是希望自己动手感受。虽然我测也不一定全面……
索性,我就老办法,使出我的惯用懒人招式:让 Claude Code 自己出题自己当裁判,给两个模型做了一次自动化的横评对比。
测试方法
当然不能直接调 API 来测,我选择的是在 Claude Code 中来进行测试对比。
我一直有智谱的 GLM Coding Plan,就不用再充钱了。而为了这次测试我也是给 DeepSeek 小充了 200 块钱,我完全不心疼,DeepSeek V4 的发布,至少值得我充点钱致敬一下。
而我们知道,Claude Code 是支持通过 --settings 参数切换不同的模型后端,配置文件可以设置不同的API端点。
为了便于我们在 Claude Code 中使用,DeepSeek 和 智谱也都支持 anthropic 的协议并推出了对应的端点,所以换个 base URL 和模型名就可以直接使用了。
因为日常经常切换及懒,我在 shell 里配了一堆 alias,平时就用不同的命令来回切。如果你之前没用过 alias,可以找个 AI 学一下,用过就会觉得……很香。
而整个测试,我全都是让 Claude Code(Opus 4.7)自己完成的:让它自己设计测试方案,自己写 prompt,分别使用 GLM 5.1 和 DeepSeek V4 Pro 跑同样的任务,最后自己评判结果。
整个过程我几乎零动手,主要是花了 3 分钟动嘴语音输入要求,然后就是坐在旁边看它自己跑。
Claude Code 自动准备测试并启动 4 个子 agent,它自己创建了隔离目录、写好了 buggy code、转换了数据格式,然后同时启动了 4 个子 agent 并行跑测试。
多样性方面,Claude Code 一共设置了 4 个 case,覆盖 bug 修复、代码生成、数据分析、可视化四个维度。
每个 case 两个模型拿到完全相同的 prompt,在完全隔离的工作目录里各自完成任务。
公平竞争。
Case 1:并发 Bug
第一个测试,是让模型定位并修复一段有并发问题的 Python 连接池代码,大约 150 行。
这段代码模拟了一个生产环境里常见的场景:异步 HTTP 连接池,带自动重试和健康检查。问题描述是「50+ 并发请求时偶发 connection pool exhausted 错误」。
当然,问题代码也是 Claude 裁判给生成的。里面埋了几个真实的并发 bug:semaphore 泄漏、TOCTOU 竞态、未加锁的计数器等。
GLM 5.1 找到了 5 个问题。根因分析正确。特别是 semaphore 泄漏的根因分析,GLM 5.1 直接指出了「每次 acquire 失败后 semaphore 永久丢失一个 slot,导致池子容量持续缩小」的正反馈循环。
GLM 5.1 在修复后自己跑了一遍测试,50 个并发 worker 全部通过,连接数精确等于 max_connections。
DeepSeek V4 Pro 也找到了 5 个问题。前 3 个和 GLM 完全一致。不同的是第 4 个:DeepSeek 发现了一个 UnboundLocalError 的隐患,当 acquire() 在第一次重试时失败,conn 变量可能还没定义就进了 finally 块。这个问题 GLM 没有提到。
DeepSeek 还给每个 bug 标了严重等级(CRITICAL / HIGH / MEDIUM / LOW),分析文档比 GLM 长了约 40%。
Claude Code 判定:这轮基本打平。
GLM 的修复更干净利落,DeepSeek 的分析更细致。如果是交给团队做 code review,两份报告都能用。
Case 2:从零写代码
第二个测试:从零实现一个生产级的滑动窗口 rate limiter。
Claude 给出的要求是:支持内存和 Redis 双后端、多规则组合(比如 100 次/分钟且 1000 次/小时)、线程安全、异步兼容、带完整 pytest 测试。
GLM 5.1:2 分钟完成,56 个测试全部通过。
代码共 316 行,简洁且够用。测试覆盖了基本限流、多规则、窗口滑动、并发安全等场景。不过有一个小瑕疵:README 里的 API 示例和实际代码对不上(文档写的是 is_allowed(),实际是 acquire())。
DeepSeek V4 Pro:17 分钟完成,63/65 个测试通过。
代码共 543 行,架构设计更成熟,有命名规则、定时清理、deque 做 O(1) 剪枝、条件化 Redis 导入等。
README 和代码一致。但有 2 个测试失败:一个是 frozen dataclass 的测试写法有误,另一个是清理定时器的竞态。
Claude Code 判定:这轮 GLM 赢,赢在可靠性。
100% 测试通过 vs 96.9%,速度比 DeepSeek 快了 8 倍。DeepSeek 的架构想法更多,但……「想太多」有时候反而引入了新问题。
Case 3:数据分析
第三个测试,Claude Code 找到了一个之前做过的工作,于是出的题完全换了个不同的方向。
它把公众号近两个月的流量数据(日均阅读、渠道分布、文章级别统计)扔给了两个模型,让它们各自写一份数据分析报告。
GLM 5.1 的报告 287 行,亮点在三个地方。
它做了一个标题关键词频率表,统计关键词的出现频次和对应平均阅读量……这对搞自媒体的人来说,还是挺实用的。
推荐渠道的增长时间线也有很细致的追踪:从 3 月上旬的 25.8% 到后来的 48.4%,再到高峰期接近 65%。
另外,它把 54 天的流量拆成了「起步期→爆发期→稳定期」三个阶段,易读易懂,清晰准确。
DeepSeek V4 Pro 的报告 372 行,篇幅更长,有一些独到的分析。
它做了一个前后 25% 文章的分位数对比,发现社交分享渠道(聊天会话 + 朋友圈)在爆文中占 18.3%,在普通文章中只有 6.6%。
从这里得出了一个结论:决定文章能否爆发的,其实是社交分享,推荐算法只是放大器。
它还注意到流量高峰后如果没有追发新内容,会错过流量窗口。
建议方面,也比 GLM 要更具体和可落地,而且带有量化的阈值:「文章过 5 万时 24 小时内追发」「内容配比 50/30/20」之类。
Claude Code 判定:这轮 GLM 略胜。
分析维度更多样,对数据结构的理解也更准确。DeepSeek 在建议的可操作性上更强,但整体不如 GLM 扎实。
Case 4:仪表盘
最后一个测试:用同一份数据,生成一个可交互的 HTML 可视化仪表盘。
GLM 5.1 用 ECharts 做了一个深色科技风的仪表盘:6 个统计卡片、6 个图表(堆叠面积趋势图、环形饼图、横向 Top 10 文章、散点回归图、互动指标趋势图)。图表数量和信息密度都比要求的更多更细致。
DeepSeek V4 Pro 则用 Chart.js 做了一个浅色主题的仪表盘:微信绿配色,4 个图表,整体更简洁更有微信味道。
甚至散点图里还带了 R² 回归值。不过 Top 10 文章的条形图只显示了序号,没有文章标题,算是个小缺陷。
Claude Code 判定:这轮各有胜负。
GLM 的内容更丰富,6 个图表覆盖了更多分析维度。DeepSeek 的 UI 配色更贴合微信的视觉体系,看着更专业。
速度差异
另外还有一个很重要的差异:速度。
在 Case 2 中,GLM 5.1 用了 2 分钟,DeepSeek V4 Pro 用了 17 分钟。其他几个 case 也有类似的差距。
要知道,模型跑得快意味着工具调用的反馈循环更短,整体效率更高。GLM 在 SWE-Bench Pro 上的第一名,可能和这种「快速试错、快速修正」的能力有关系。
当然,DeepSeek V4 Pro 目前的推理速度受限于算力,且可能由于刚推出而过于火爆。在 V4 的技术报告里也有提到,等华为昇腾 950 超级节点下半年大规模上线后,Pro 的速度和价格都会有明显改善。
总成绩
| Case | GLM 5.1 | DeepSeek V4 Pro |
|---|---|---|
| Bug 修复 | 找到 5 bug,修复干净 | 找到 5 bug,分析更细 |
| 代码生成 | 100% 测试通过,2 分钟 | 96.9% 通过,17 分钟 |
| 数据分析 | 分析维度更多 | 建议更可操作 |
| 仪表盘 | 内容更丰富(6 图) | UI 更专业 |
从这 4 个 case 来看,GLM 5.1 在代码的可靠性和执行效率上确实有优势。DeepSeek V4 Pro 在架构设计和分析深度上也有自己的长处,但执行层面会出小问题。
这和社区的体感基本一致:在非顶级模型(Claude、GPT 之外)的 coding 能力排名里,GLM 5.1 还是比较能打,排名靠前。而 DeepSeek 由于刚推出,虽然实力已然非常强劲,但在速度和模型优化方面还需要继续打磨一下。
GLM 5.1 刚推出来时,也有被诟病速度太慢。现在显然就快了巨多,希望/相信 DeepSeek 很快也能追上来。
局限
需要声明的是,这只是 4 个 case 的测试,算不上全面的 benchmark。
Bug 修复只用了一段代码,代码生成只测了一种类型,数据分析和可视化也只用了一份数据。真正的全面评测需要成百上千个 case,这个工作量不是这一篇文章里的几个 case 就能全面覆盖的。
以及裁判 Claude Code 自身,也有其局限性。
另外,DeepSeek V4 在多模态上目前确实还有待补齐,这也是它即将发力的方向。而 GLM 5.1 在综合能力上更全面一些,尤其是在实际工程任务中的表现。
不过这两家都在快速迭代,希望国产模型们,都能卷得更猛一些,甚至能在 26 年内能卷番国外的两家闭源模型。
如果你也想便捷地体验和对比这些优秀的国产AI模型,推荐使用 TreeRouter API中转站。它支持一键调用DeepSeek、GLM、GPT、Claude等主流AI模型的API接口,无需分别申请和管理多个平台密钥,一站式完成多模型的调用、测试和对比,是开发者进行模型横评和项目集成的得力工具。




