最佳实践

这是我每天使用 Seawork 的心得。不是规则，只是对我有效的模式。

智能体替代打字，而非思考

你的角色变了。你不再是逐行编写代码的人，而是做决策的人：构建什么，应该如何工作，架构是什么样的。智能体执行，但你指挥。

你不能只说「实现功能 X」然后走开。你仍然需要做困难的部分：决定构建什么、如何融入系统、做出哪些权衡。思考不是可选的。至少现在，智能体替代了打字，而不是思考。

智能体需要一种验证工作的方式。TDD 是这种模式的一种实现：让智能体编写一个失败的测试，验证它因正确原因失败，然后告诉它使测试通过。智能体可以自行循环，因为它知道「完成」意味着什么。

不只是测试运行器。对于网页应用，像 Playwright MCP 这样的工具让智能体可以截图并验证 UI 变化。对于一个 SaaS 应用，我构建了一个包装所有业务逻辑的 CLI，让智能体可以在不经过 UI 的情况下启动任务、检查状态和抓取数据。

有了编程智能体，代码变得廉价。之前我永远不会编写那个 CLI，因为感觉是浪费精力。现在我先引导工具链。回报是指数级的。

不要吝啬于运行多个智能体。Seawork 让你在隔离的 worktree 中启动智能体。走路时用语音启动一个，然后再启动另一个。它们独立工作，完成后你会收到通知。

用语音交流想法并从脑中提取它们更加自然。智能体解析和整理你思路的能力比你尝试写完美提示词要好。你不需要组织任何东西，只需说话。

当前的语音转文字模型非常好。它们能识别口音、缩写词、技术术语。即使识别有误，LLM 也会推断你的意思。

有时你需要规划：设计规格、验证它、让智能体跟进。也许需要几个智能体来完成。其他时候是对话式的：启动一个智能体然后开始交谈、提问。根据任务匹配你的方式。

不要期望完美，期望可运行。让它工作，让它正确，让它美观。每次迭代让你更接近目标。有测试，重构就便宜。

我不让自己在停下来重构之前添加太多功能。有时我启动一个智能体让它追踪代码路径、解释依赖关系、展示模块如何连接。我在代码审查时做心理笔记然后回头处理。

如果一个智能体实现了某些东西然后你让它审查自己的工作，它永远不会发现问题。用新鲜上下文启动一个单独的智能体来审查第一个智能体的代码。它会发现第一个智能体遗漏或忽略的问题。一个智能体可能说它完成了，但实际上没有。另一个智能体可以检测到这一点。

人们争论哪个模型更好，这是错误的问题。每个模型都有优势和劣势。了解它们比追逐基准测试更有用。基准测试没有意义，你需要自己尝试这些模型来形成看法。

我把 Claude Code 作为主要驱动，因为它快且工具使用得好。但有时它会跳到结论并过早放弃。Codex 慢得令人沮丧，但深入、不停止、有条不紊。它也固执且太一本正经。这些不是好坏特质，只是你学会应对的差异。为工作使用合适的模型。