1 Pipeline ETL avec pandas et SQLAlchemy
Pipeline ETL avec pandas et SQLAlchemy.
Point cle
Maitriser cet outil est essentiel pour industrialiser le projet central.
2 Nettoyage : valeurs manquantes (imputation par
Nettoyage : valeurs manquantes (imputation par mediane/mode), outliers (IQR, z-score), doublons, types.
3 Validation avec great_expectations : tests de
Validation avec great_expectations : tests de schema, plages de valeurs, distributions attendues.
4 Automatisation : script Python orchestrant extract
Automatisation : script Python orchestrant extract -> transform -> load -> validate.
5 Tests unitaires du pipeline
Tests unitaires du pipeline.
Synthese
5.0.1 Les points essentiels
- Pipeline ETL avec pandas et SQLAlchemy
- Nettoyage : valeurs manquantes (imputation par mediane/mode), outliers
- Validation avec great_expectations : tests de schema, plages
- Automatisation : script Python orchestrant extract -> transform
- Tests unitaires du pipeline
Auto-evaluation
Question 1
Comment appliquer ce concept dans le projet central ?
Question 2
Comment appliquer ce concept dans le projet central ?
Question 3
Comment appliquer ce concept dans le projet central ?
Question 4
Comment appliquer ce concept dans le projet central ?