Pipelines con Parquet y Delta

PySpark se usa mucho para construir pipelines sobre data lakes. Parquet y Delta Lake son formatos clave.

Parquet

python

df.write.mode("overwrite").partitionBy("date").parquet(path)

Ventajas:

Columnar.
Compresion.
Predicate pushdown.
Lectura eficiente.

Delta Lake

python

df.write.format("delta").mode("append").save(path)

Delta añade:

ACID.
Transaction log.
Time travel.
MERGE.

MERGE

sql

MERGE INTO target t
USING updates s
ON t.id = s.id
WHEN MATCHED THEN UPDATE SET *
WHEN NOT MATCHED THEN INSERT *

Capas

txt

bronze -> silver -> gold

Buenas practicas

Bronze conserva datos crudos.
Silver limpia y normaliza.
Gold sirve negocio.
Particiona por fecha si se consulta por fecha.
Controla archivos pequeños.
Documenta contratos de tablas.

Apis Rest

Clean Architecture

Cqrs

Ddd

Event Driven

Hexagonal

Microservicios

Aspnet Core

Django

Express

Fastapi

Laravel

Nestjs

Php

Spring Boot

Angular

Css

Nextjs

React

Redux

Tailwind

Ux

Vue

Zustand

Ejercicios

Pipelines con Parquet y Delta

Parquet

Delta Lake

MERGE

Capas

Buenas practicas

Pipelines con Parquet y Delta ​

Parquet ​

Delta Lake ​

MERGE ​

Capas ​

Buenas practicas ​

Pipelines con Parquet y Delta

Parquet

Delta Lake

MERGE

Capas

Buenas practicas