R
Machine Learning
Classification
1 Contexte
La détection des défauts de paiements des crédits bancaires est un enjeu majeur pour les banques. Une gestion rigoureuse, permet d’avoir un recouvrement de créance efficace et maintenir des flux de trésorerie solides. De ce fait, il est essentiel de minimmiser ces pertes. La classification supervisée regroupe l’ensemble des méthodes statistiques dont l’objectif principal est de prédire pour un individu donné l’appartenance à une classe connue au préalable. Nous sommes ici dans le cas d’une banque de détails qui souhaite attribuer un score ou probabilité de risque à ses clients.
2 Objectifs
Ainsi, dans le cas des défauts de paiement bancaire, l’objectif est de pouvoir modéliser l’appartenance d’un individu à l’une des classes suivantes :
Oui [1], l’individu est en défaut de paiement ;
Non [0], l’individu n’est pas en défaut de paiement ;
3 Méthodologie
De prime abord, nous avons réalisé une analyse descriptive qui a nous permis de mettre en exergue un déséquilibre des classes pour la variable à expliquer. En d’autres termes, nous avons une présence élevée de personne n’étant pas en défaut de paiement contrairement à celles qui le sont.
Cela est un fait positif pour une banque en soi.
Cependant, ce déséquilibre impact négativement la performance et biaise le résultat des modèles.
Cela nous a donc conduit a procédé comme suit :
Découpage de la population en 2 sous-groupes :
Un groupe dédié à l’apprentissage, autrement dit, le groupe d’entraînement (2/3) ;
Un groupe dédié à la validation des modèles, autrement dit, le groupe test (1/3) ;
Première application des modèles sans prise en compte du déséquilibre des classes.
Seconde à application des modèles en prenant en compte le déséquilibre des classes par le biais d’application de méthode de ré-échantillonnage des classes, à savoir :
- Les modèles utilisés sont les suivants :
4 Principaux
Après avoir entraîné les modèles sur l’échantillon d’entraînement, nous avons appliqué les modèles sur les données test afin d’en apprécier leur performance. Plus précisément, nous avons comparé les résultats de nos 2 approches. C’est-à-dire l’approche tenant compte du déséquilibre des classes et celle ne la prenant pas en compte.
Sur la base des différentes métriques d’évaluation que nous avons utilisé, ils s’avère que le modèle le plus performabnt est une Forêt Aléatoire sur laquelle nous avons appliqué la méthode SMOTE.
Le modèle retenu présente un taux de bonne prédictions de 94,6% contre 5,4% de taux de mauvaises prédictions.
5 Conclusions et perspective
Dans la réalité, il est très probable de rencontrer un déséquilibre de classes de la variable à expliquer pour les problèmes de classification supervisée. Surtout dans le milieu bancaire.
C’est un aspect qui biaise fortement les résultats d’estimations. Par conséquent, il est important de pouvoir le détecter assez tôt et appliquer les méthodes adéquates pour prendre en compte le problème. Au sortir de là, cela nous permet d’obtenir un modèle qui n’est pas biaisé. Ce dernier nous permet donc aisément de prédire, pour un individu donné, sa probabilité d’appartenance à l’une des classes de la variable à expliquer. Dans le cas des défauts de paiement bancaire, l’intérêt de ce genre de méthodes est qu’elle donne la possibilité de mettre en place de moyens de prévention pour se prémunir des personnes qui présentent un fort risque d’être en défaut de paiement.
6 Outil technique
- Logiciel
Vous trouverez le rapport ici :