Observabilidad y troubleshooting

Kafka debe observarse desde broker, topic, producer y consumer. Mirar solo CPU o solo lag no basta.

Metricas de broker

Vigila:

Under replicated partitions.
Offline partitions.
Request latency.
Disk usage.
Network throughput.
Controller changes.
ISR shrink/expand rate.

Metricas de topic

Bytes in/out.
Messages in.
Retention.
Partition count.
Produce/fetch latency.

Metricas de consumer group

Lag total.
Lag por partition.
Rebalances.
Tiempo de procesamiento.
Errores de deserializacion.

Lag

Mucho lag puede significar:

Consumidores lentos.
Pocas partitions.
Pocos consumers.
Errores en procesamiento.
Broker saturado.
Evento demasiado grande.

Comandos utiles

Listar grupos:

bash

kafka-consumer-groups --bootstrap-server localhost:9092 --list

Describir grupo:

bash

kafka-consumer-groups --bootstrap-server localhost:9092 \
  --describe --group billing-service

Listar topics:

bash

kafka-topics --bootstrap-server localhost:9092 --list

Describir topic:

bash

kafka-topics --bootstrap-server localhost:9092 \
  --describe --topic orders.created

Errores frecuentes

NotLeaderOrFollower: metadata desactualizada o cambio de leader.
UnknownTopicOrPartition: topic inexistente o metadata no propagada.
SerializationException: payload no compatible.
CommitFailedException: rebalance durante procesamiento.
Lag creciente: consumidores no siguen ritmo.

Runbook de lag

Ver grupo y partitions afectadas.
Revisar logs de consumidores.
Medir tiempo por evento.
Revisar errores de downstream.
Comprobar si hay rebalances frecuentes.
Escalar consumers si hay partitions libres.
Ajustar batching o paralelismo si procede.

Runbook de broker

Revisar under-replicated partitions.
Revisar disco.
Revisar red.
Revisar logs del broker.
Confirmar ISR.
Evitar reinicios simultaneos.

Buenas practicas

Define alertas antes de incidentes.
Monitoriza lag por consumer group critico.
Propaga correlation ids.
Centraliza logs de producers y consumers.
Documenta owners de topics.
Ten runbooks para lag, broker caido y schema roto.

Apis Rest

Clean Architecture

Cqrs

Ddd

Event Driven

Hexagonal

Microservicios

Aspnet Core

Django

Express

Fastapi

Laravel

Nestjs

Php

Spring Boot

Angular

Css

Nextjs

React

Redux

Tailwind

Ux

Vue

Zustand

Ejercicios

Observabilidad y troubleshooting

Metricas de broker

Metricas de topic

Metricas de consumer group

Lag

Comandos utiles

Errores frecuentes

Runbook de lag

Runbook de broker

Buenas practicas

Observabilidad y troubleshooting ​

Metricas de broker ​

Metricas de topic ​

Metricas de consumer group ​

Lag ​

Comandos utiles ​

Errores frecuentes ​

Runbook de lag ​

Runbook de broker ​

Buenas practicas ​

Observabilidad y troubleshooting

Metricas de broker

Metricas de topic

Metricas de consumer group

Lag

Comandos utiles

Errores frecuentes

Runbook de lag

Runbook de broker

Buenas practicas