用 Claude Code + Sub-agents 的全栈实测：国产四模的“流程力”胜负手

2025-08-29 约 1249 字预计阅读 3 分钟

背景与方法

在真实全栈任务中评估 AI 编程模型，才能看清“能否交付”。本次以 Astro + TypeScript + Tailwind + WordPress Headless（REST）为技术栈，目标交付公司站与独立 Blog（列表、详情、搜索、分页、SEO）。统一提示词、统一约束（严格 TS、pnpm、响应式与性能指标），并通过 Claude Code 的 sub‑agents 自动协同，完整跑通前后端链路，记录时延、修复成本与账单数据。

工作流与子代理设置

采用五个子代理：项目协调、UI/UX、前端、WordPress 集成、博客开发。项目协调负责里程碑、质量门与跨代理交接；UI/UX 给出设计系统与组件规范；前端落地页面骨架与交互；WP 集成负责 API、分类/搜索、缓存与错误处理；博客开发完成动态路由、渲染与 SEO。危险模式自动执行，过程以“错误复述 + 期望行为 + 最小复现 + 日志片段”形成闭环，避免长链路失控。

实测结果：速度/完成度/成本

完成度与稳定性：GLM‑4.5 最稳，流程遵循好，端到端闭环顺畅；DeepSeek V3.1 稳健，偶发 CSS/路由瑕疵，修复后可用；Kimi K2 交互与审美好，但构建与修复耗时高；Qwen3‑coder 易偏离流程（包管理、代理调用），需强约束。
速度：Qwen ≈ 16–20 分钟出样；GLM ≈ 1.5 小时可交付；DeepSeek ≈ 3 小时；Kimi ≈ 6 小时。快不等于省心，返工会吞噬名义速度优势。
审美与一致性：Kimi > GLM > DeepSeek > Qwen。组件一致性与响应式细节，影响首屏观感与转化。
成本与返工：账单综合与返工成本加总后，GLM 最优，DeepSeek 次之；Kimi 与 Qwen 取决于你能否容纳“慢/快带来的返工”。

一句话总结：GLM 把活干全；Kimi 把活干美；Qwen 把活干快；DeepSeek 把活干稳。

常见坑点与对策

WordPress 并非“装好即用”。若首轮安装与固定链接（/%postname%/）未就绪，前端 Blog 将呈现“无内容”。
对策：把安装状态、固定链接、CORS、REST 路由通断、示例文章，列为预检清单。
接口联调易散点化。
对策：统一“联调脚本”：复述错误 → 明确期望 → 最小复现 → 提供日志 → 回归验证；将数据访问层抽象为单点，统一加载/错误态。
包管理与指令偏航。
对策：在提示词与 package.json 脚本中双重固化 pnpm；将 CI 预检集成到代理任务首步。

工程启示

先组织，后生成。流程拆解与角色分工，决定代码质量与节奏稳定性。
泳道化交付：信息架构 → 设计系统 → 页面骨架 → 数据接入 → SEO/性能，配套质量门逐段验收。
以日志为锚。让代理围绕日志与复现路径迭代，减少“上下文走丢”。
把“修复话术”标准化，代理即可批量化处理常见故障。
本质上，开发者正从“编码者”转向“AI 工作流架构师”，边界在工作流，而非模型单点能力。

选型建议与结论

综合交付/省心优先：GLM‑4.5。
视觉呈现优先：Kimi K2（预留构建与修复时间）。
极限速度优先：Qwen3‑coder（必须强化流程与依赖约束）。
稳健与可调优：DeepSeek V3.1。

结论：单点“写代码”已非胜负手，流程设计与协作编排才是上限。当流程清晰、质量门明确，模型只是“换刀”，不是“换厨师”。

目录