本文目录#

为什么需要 ZooKeeper 可观测性#

ZooKeeper 是分布式协调的关键组件,其延迟、会话数量、事务日志性能直接影响上游服务。建立一套可靠的监控、日志与追踪体系能够提前发现脑裂、延迟飙升等风险。

指标采集#

  • 使用 mntr 四字命令配合 Prometheus Exporter(如 prometheus-jmx-exporter);
  • 关键指标:zk_avg_latency, zk_watch_count, zk_outstanding_requests, zk_pending_syncs
  • 磁盘与 JVM 指标:jvm_gc_pause, io_util, disk_fill_rate

日志与告警#

  • 审计 WATCHER, SESSION, LEADER 日志;
  • Alertmanager 告警规则:延迟超过 10ms、Follower 落后、Session 半数以上断开;
  • ELK/Loki 关联日志与业务 Trace ID。

自检清单#

  • 是否在集群升级/配置变更前后观察延迟曲线?
  • 是否监控 Leader/Follower 状态变化并记录时间线?
  • 是否定期压测磁盘与网络带宽,验证日志同步阈值?

参考资料#


本作品系原创,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请注明出处。