Exemple simple d'un pipeline ETL complet.
etl-demo/
├── data/
│ ├── raw/ # Données brutes (JSON)
│ └── processed/ # Données nettoyées (CSV)
├── 1-extract.js # Scraping avec Playwright
├── 2-transform.py # Nettoyage avec Pandas
└── 3-load.py # Chargement dans Cassandra
- Extraction :
node 1-extract.js
- Transformation :
python 2-transform.py
- Chargement :
python 3-load.py
- Le scraping est configuré pour la Fnac
- Les données sont sauvegardées à chaque étape
- Utilise des batch pour Cassandra