本文目录#
引言#
统一的可观测平台是运维基石。本文整理 Kubernetes 监控栈(Prometheus、Grafana、Alertmanager)与日志栈(EFK、Loki)的建设指导。
指标监控#
- Prometheus Operator 部署 Prometheus/Alertmanager;
- kube-state-metrics、node-exporter、cAdvisor;
- ServiceMonitor/PodMonitor 自定义采集;
- Grafana Dashboard 展示控制面、节点、应用指标。
日志采集#
- EFK(Elasticsearch + Fluentd + Kibana)或 Loki + Promtail;
- 定义日志格式(JSON);
- Multi-tenant 按 namespace、标签索引;
- 日志保留策略与冷热数据分层。
Trace 集成#
- OpenTelemetry Collector 收集 Trace;
- Jaeger/Tempo 展示调用链;
- 统一 TraceID 注入(Envoy/Sidecar)。
告警与自动化#
- Alertmanager 路由规则与静默;
- Ops 平台(PagerDuty、Feishu)通知;
- 使用 Runbook 自动化处理常见问题。
安全与合规#
- 控制日志访问权限,敏感数据脱敏;
- 审计日志采集(API Server Audit);
- 监控平台备份与灾备。
总结#
完整的 Kubernetes 可观测体系包含指标、日志、追踪。通过 Operator、统一标准与自动化响应,可以在复杂集群中保持透明度。
参考资料#
- [1] Prometheus Operator Doc. https://github.com/prometheus-operator/kube-prometheus
- [2] Loki Documentation. https://grafana.com/docs/loki/latest/
本作品系原创,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请注明出处。