监控与告警：别等用户先发现

监控什么

实例可用性（存活/端口/CPU/内存）
队列堆积量、执行失败率
关键工作流的耗时与错误

怎么报警

失败触发一个“告警工作流”，推送到 IM/短信/邮件
重要工作流失败要升级通知

定位

先看执行日志，找第一个报错的节点
重跑一次看是否稳定复现
必要时打印关键上下文

小结

监控先做“能知道出事”，再做“能定位到点”。别一上来追求大而全。