Skip to content

监控与告警:别等用户先发现

监控什么

  • 实例可用性(存活/端口/CPU/内存)
  • 队列堆积量、执行失败率
  • 关键工作流的耗时与错误

怎么报警

  • 失败触发一个“告警工作流”,推送到 IM/短信/邮件
  • 重要工作流失败要升级通知

定位

  • 先看执行日志,找第一个报错的节点
  • 重跑一次看是否稳定复现
  • 必要时打印关键上下文

小结

监控先做“能知道出事”,再做“能定位到点”。别一上来追求大而全。