本文目录#
引言:真正决定成败的是上线后的 72 小时#
很多团队把大量精力放在“上线那一刻”,却忽略了上线后的运行现实:
- 用户输入分布和测试集不同;
- 上游依赖波动比预期更大;
- 成本和延迟在高峰时段出现结构性变化;
- 小概率故障在规模下会变成高频事件。
Agentic Engineering 的闭环必须覆盖三件事:可观测、可回滚、可复盘。没有这三项,前面的需求、设计、闸门都会慢慢失效。
1. 可观测:你需要的不是“日志很多”,而是“问题可定位”#
建议把观测对象分成四层:
- 任务层:一次用户请求是否成功,失败属于哪类。
- 推理层:模型调用耗时、token、重试、拒答。
- 工具层:每个工具调用成功率、耗时、错误码、幂等冲突。
- 业务层:转化、留存、人工接管率、投诉率。
如果只看模型层指标,你会误判很多问题。例如模型成功返回了,但工具执行失败,业务结果仍然失败。
建议最小观测字段:
1 | trace_id / request_id / tenant / use_case / model / tool / latency / tokens / cost / error_class |
2. 预设告警:先定义“何时拉闸”,再等告警响起#
告警不是为了“发现有问题”,而是为了“触发动作”。
一线团队可先定义三档阈值:
- P1(立即回滚):关键路径错误率暴涨、越权执行、敏感数据泄漏;
- P2(降级运行):延迟超阈值、成本异常上升、上游限流持续;
- P3(观察与优化):非关键功能抖动、次要工具失败率上升。
对应动作必须提前写好:
1 | P1 -> 立即切回旧版本 + 通知值班 + 冻结新发布 |
3. 回滚:回滚能力不是开关,而是演练出来的#
很多系统“理论可回滚”,但故障时回不去。原因通常有三类:
- 回滚路径依赖了已经变更的数据结构;
- 发布时没有保留旧配置与旧模型路由;
- 团队缺少实战演练,故障时操作顺序混乱。
建议每个迭代至少做一次小型演练:
- 模拟上游超时;
- 模拟模型输出异常;
- 模拟工具权限错误;
- 验证是否能在目标时间内恢复。
并把目标时间写死,例如:
- 5 分钟内完成流量切换;
- 15 分钟内恢复核心链路;
- 30 分钟内给出对内事故通报。
4. 复盘:复盘不是追责会,而是系统改进会#
高质量复盘必须回答 5 个问题:
- 触发条件是什么?
- 哪条门禁本应拦截但没拦住?
- 观测信号为何没及时触发?
- 回滚为什么快/慢?
- 下次如何通过机制避免同类事故?
建议用“机制导向”结构写复盘:
1 | 事实时间线 -> 决策点 -> 失效门禁 -> 补强动作 -> 负责人与截止时间 |
只有当复盘结果沉淀进门禁、测试、告警规则,复盘才算完成。
5. 组织协作:把“个人经验”固化成“团队默认流程”#
Agentic Engineering 成熟度的关键标志,不是某个工程师多强,而是新同事加入后也能在两周内按流程稳定交付。
建议在团队内固定三类资产:
- 运行手册(Runbook):故障时谁做什么、先后顺序是什么;
- 门禁模板(Gate Template):每次发布必须经过的验证项;
- 复盘知识库(Postmortem KB):同类问题历史、修复策略与禁忌操作。
这三类资产会显著降低“人员变动导致质量波动”的风险。
6. 连载总收束:从“写得快”走向“交付稳”#
回看三篇连载:
- Part 1 解决“如何把需求到发布流程化”;
- Part 2 解决“如何把评估与闸门制度化”;
- Part 3 解决“如何把运行与复盘长期化”。
这就是 Agentic Engineering 对一线工程师真正有价值的地方:
不是替你做决策,而是把你的决策转化成可执行、可验证、可复用的工程系统。
如果你准备在团队里落地,建议从最小闭环开始:
- 先定义一条核心链路;
- 先接入一套最小观测字段;
- 先建立一份发布闸门模板;
- 先完成一次故障回滚演练。
当这四件事稳定后,再扩到更多 Agent 场景,成功率会高很多。
本作品系原创,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请注明出处。
