Patrones de data engineering
PySpark suele formar parte de pipelines mayores. Los patrones correctos reducen duplicados, errores y costes.
Incremental por fecha
Procesar solo particion:
txt
date=2026-06-26Full refresh
Recalcula todo. Es simple, pero caro.
Upsert
Con Delta:
txt
MERGE source into target by idValidaciones
- Schema.
- Nulos.
- Duplicados.
- Rangos.
- Conteos.
Quarantine
Datos invalidos van a una zona de cuarentena para investigacion.
Buenas practicas
- Diseña pipelines idempotentes.
- Separa bronze/silver/gold.
- Valida antes y despues.
- Mantén contratos de datos.
- Documenta reprocesamientos.
- Evita mezclar transformacion y orquestacion.
