本文目录#
引言#
消息堆积是常见故障场景。本文给出 Kafka、RocketMQ、RabbitMQ 堆积排查步骤、恢复策略与预防措施。
排查流程#
- 监控警报:Lag、Queue 深度、堆积量;
- 检查消费者状态:线程、错误、超时;
- 分析 Broker 负载、磁盘使用;
- 识别是否为生产者突增或消费者故障。
恢复策略#
- 临时扩容消费者;
- 调整消费并发、批量;
- 对慢消费者隔离、重启;
- 使用重平衡或重分区;
- 对超时消息写入死信或回放。
预防措施#
- 设置合理监控阈值;
- 自动扩缩容策略;
- 背压、限流机制;
- 压测与容量规划。
总结#
消息堆积处理需要快速定位瓶颈、采取扩容或调优措施,并在事后加强监控与容量规划。
参考资料#
- [1] Kafka Operations Guide.
- [2] RocketMQ 运维手册.
本作品系原创,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请注明出处。