Skip to content

Latest commit

 

History

History
38 lines (29 loc) · 685 Bytes

README.md

File metadata and controls

38 lines (29 loc) · 685 Bytes

Demo ETL

Exemple simple d'un pipeline ETL complet.

Structure

etl-demo/
├── data/
│   ├── raw/           # Données brutes (JSON)
│   └── processed/     # Données nettoyées (CSV)
├── 1-extract.js       # Scraping avec Playwright
├── 2-transform.py     # Nettoyage avec Pandas
└── 3-load.py         # Chargement dans Cassandra

Utilisation

  1. Extraction :
node 1-extract.js
  1. Transformation :
python 2-transform.py
  1. Chargement :
python 3-load.py

Notes

  • Le scraping est configuré pour la Fnac
  • Les données sont sauvegardées à chaque étape
  • Utilise des batch pour Cassandra