Module Technique 14 – Projet Central : Pipeline de donnees

ETL, nettoyage et validation

projet
pipeline
etl
Auteur·rice

Francois Boussengui

Date de publication

25 mars 2026

1 Pipeline ETL avec pandas et SQLAlchemy

Pipeline ETL avec pandas et SQLAlchemy.

Point cle

Maitriser cet outil est essentiel pour industrialiser le projet central.


2 Nettoyage : valeurs manquantes (imputation par

Nettoyage : valeurs manquantes (imputation par mediane/mode), outliers (IQR, z-score), doublons, types.


3 Validation avec great_expectations : tests de

Validation avec great_expectations : tests de schema, plages de valeurs, distributions attendues.


4 Automatisation : script Python orchestrant extract

Automatisation : script Python orchestrant extract -> transform -> load -> validate.


5 Tests unitaires du pipeline

Tests unitaires du pipeline.


Synthese

5.0.1 Les points essentiels

  1. Pipeline ETL avec pandas et SQLAlchemy
  2. Nettoyage : valeurs manquantes (imputation par mediane/mode), outliers
  3. Validation avec great_expectations : tests de schema, plages
  4. Automatisation : script Python orchestrant extract -> transform
  5. Tests unitaires du pipeline

Auto-evaluation

Comment appliquer ce concept dans le projet central ?

Comment appliquer ce concept dans le projet central ?

Comment appliquer ce concept dans le projet central ?

Comment appliquer ce concept dans le projet central ?


<- Retour a la Semaine 14 Voir la Fiche de travail ->