R
Machine Learning
Clustering
1 Contexte
Dans le cadre d’un projet réalisé dans l’apprentissage de méthodes de Datamining, 1 il a été question d’appliquer des méthodes de classification non supervisée 2 sur une base de données contenant des informations sur 1728 biens immobiliers de la ville de Saratoga, en Californie.
2 Objectifs
Les biens immobiliers de la ville de Saratoga présentent des caractéristiques qui ont une influence non négligeable sur leur prix. Cependant, malgré ces différence de prix, nous partons du postulat qu’il est tout à fait possible de regrouper ces biens en classes homogènes. En d’autres termes, en groupe de biens présentant des caractéristiques similaires. Par le biais de techniques de classification non supervisée, il a donc été question de proposer des classes de biens homogènes au sens statistique du terme 3.
3 Méthodologie
Pour ce faire, nous avons appliquer des méthodes de classification non supervisée sur notre jeu de données.
- Analyses factorielles
- Méthodes de partitionnement
4 Résultats
L’analyse des composantes principales (ACP) nous a permis de déterminer les 2 grandes classes de biens homogènes suivantes :
Les biens immobiliers présentant des prix faibles, une petite surface habitable et qui sont récents.
Inverserment, les biens immobiliers présentant des prix relativement élevés, une surface habitable relativement élevée et qui sont plus anciens.
L’analyse des composantes multiples (ACM) nous a permis quant à elle de classifier les biens comme suit :
Les biens chauffés à l’électrique et n’ayant pas de cheminée
Inversement, les biens possédant au minimum une cheminée et chauffés à l’air chaud ou à l’eau chaude.
En conclusion, l’application des techniques de data mining présentent une utilité non négligeable. En effet, ces dernières nous ont permis de mettre en évidence les biens qui présentent des caractères similaires et qui par conséquent, peuvent être scindés en plusieurs catégories. Dans un but de segmentation du marché ou d’analyse de la clientèle, ces techniques présentent une utilité sans précédente.
5 Outil technique
- Logiciel
Vous trouverez le rapport ici :
Notes de bas de page
La fouille de données (ou “datamining” en anglais) désigne le processus de découverte de motifs, de corrélations ou d’anomalies en analysant de grands ensembles de données à l’aide de diverses techniques computationnelles. Cela implique d’extraire des informations utiles à partir de données brutes pour découvrir des motifs cachés, des relations ou des insights qui peuvent aider à la prise de décision ou à la prédiction.↩︎
La classification non supervisée, également connue sous le nom de clustering, est une méthode de fouille de données qui consiste à regrouper des objets ou des données sans utiliser d’étiquettes ou de catégories prédéfinies.↩︎
L’homogénéité d’une population ou d’une classe, en termes statistiques, se réfère à la similitude ou à la cohérence des individus ou des observations au sein de cette population ou classe. Cela signifie que les membres de cette population ou classe présentent des caractéristiques ou des attributs similaires.↩︎