本文目录#

引言#

消息堆积是常见故障场景。本文给出 Kafka、RocketMQ、RabbitMQ 堆积排查步骤、恢复策略与预防措施。

排查流程#

  1. 监控警报:Lag、Queue 深度、堆积量;
  2. 检查消费者状态:线程、错误、超时;
  3. 分析 Broker 负载、磁盘使用;
  4. 识别是否为生产者突增或消费者故障。

恢复策略#

  • 临时扩容消费者;
  • 调整消费并发、批量;
  • 对慢消费者隔离、重启;
  • 使用重平衡或重分区;
  • 对超时消息写入死信或回放。

预防措施#

  • 设置合理监控阈值;
  • 自动扩缩容策略;
  • 背压、限流机制;
  • 压测与容量规划。

总结#

消息堆积处理需要快速定位瓶颈、采取扩容或调优措施,并在事后加强监控与容量规划。

参考资料#

  • [1] Kafka Operations Guide.
  • [2] RocketMQ 运维手册.

本作品系原创,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请注明出处。