1 Contexte

Dans le cadre d’un projet réalisé dans l’apprentissage de méthodes de Datamining, ¹ il a été question d’appliquer des méthodes de classification non supervisée ² sur une base de données contenant des informations sur 1728 biens immobiliers de la ville de Saratoga, en Californie.

2 Objectifs

Les biens immobiliers de la ville de Saratoga présentent des caractéristiques qui ont une influence non négligeable sur leur prix. Cependant, malgré ces différence de prix, nous partons du postulat qu’il est tout à fait possible de regrouper ces biens en classes homogènes. En d’autres termes, en groupe de biens présentant des caractéristiques similaires. Par le biais de techniques de classification non supervisée, il a donc été question de proposer des classes de biens homogènes au sens statistique du terme ³.

3 Méthodologie

Pour ce faire, nous avons appliquer des méthodes de classification non supervisée sur notre jeu de données.

Analyses factorielles

Analyse factorielle des correspondances (AFC)

L’Analyse Factorielle des Correspondances (AFC) est une méthode statistique utilisée pour explorer les relations entre des variables qualitatives (catégorielles) dans des tableaux de contingence. Cette méthode permet de réduire la dimensionnalité des données et de représenter graphiquement les associations entre les catégories des variables sous forme de points dans un espace de faible dimension (généralement deux dimensions).

Analyse des composantes principales (ACP)

L’Analyse des Composantes Principales (ACP) est une méthode statistique utilisée pour transformer un ensemble de variables potentiellement corrélées en un ensemble de variables non corrélées appelées composantes principales. Cette technique permet de réduire la dimensionnalité des données tout en préservant autant que possible leur variance.

Analyse des composantes multiples (ACM)

L’Analyse des Composantes Multiples (ACM) est une extension de l’Analyse des Composantes Principales (ACP) qui permet de traiter simultanément plusieurs tableaux de données, souvent appelés modalités, lorsqu’il y a plusieurs ensembles de variables à analyser conjointement. Cela peut être particulièrement utile lorsque les données sont organisées en groupes ou en ensembles distincts et que l’on souhaite étudier leurs relations globales.

Méthodes de partitionnement

Classification ascendante hiérarchique (CAH)

La Classification Ascendante Hiérarchique (CAH) est une méthode d’analyse statistique utilisée pour regrouper des observations ou des variables en clusters (groupes) homogènes et hétérogènes successivement, de manière ascendante (du bas vers le haut). Cette méthode est non paramétrique et exploratoire, ce qui signifie qu’elle ne nécessite pas d’hypothèses préalables sur la structure des données et qu’elle est utilisée pour explorer la structure intrinsèque des données.

K-Means (K-plus proches voisins)

Le K-means est l’un des algorithmes de clustering les plus populaires en analyse de données non supervisée. Son objectif principal est de partitionner un ensemble de données en K clusters distincts, où chaque observation appartient au cluster avec le centre (centroid) le plus proche

4 Résultats

L’analyse des composantes principales (ACP) nous a permis de déterminer les 2 grandes classes de biens homogènes suivantes :

Les biens immobiliers présentant des prix faibles, une petite surface habitable et qui sont récents.
Inverserment, les biens immobiliers présentant des prix relativement élevés, une surface habitable relativement élevée et qui sont plus anciens.

L’analyse des composantes multiples (ACM) nous a permis quant à elle de classifier les biens comme suit :

Les biens chauffés à l’électrique et n’ayant pas de cheminée
Inversement, les biens possédant au minimum une cheminée et chauffés à l’air chaud ou à l’eau chaude.

En conclusion, l’application des techniques de data mining présentent une utilité non négligeable. En effet, ces dernières nous ont permis de mettre en évidence les biens qui présentent des caractères similaires et qui par conséquent, peuvent être scindés en plusieurs catégories. Dans un but de segmentation du marché ou d’analyse de la clientèle, ces techniques présentent une utilité sans précédente.

5 Outil technique

Logiciel

Vous trouverez le rapport ici :

Lire le rapport

Notes de bas de page

La fouille de données (ou “datamining” en anglais) désigne le processus de découverte de motifs, de corrélations ou d’anomalies en analysant de grands ensembles de données à l’aide de diverses techniques computationnelles. Cela implique d’extraire des informations utiles à partir de données brutes pour découvrir des motifs cachés, des relations ou des insights qui peuvent aider à la prise de décision ou à la prédiction.↩︎
La classification non supervisée, également connue sous le nom de clustering, est une méthode de fouille de données qui consiste à regrouper des objets ou des données sans utiliser d’étiquettes ou de catégories prédéfinies.↩︎
L’homogénéité d’une population ou d’une classe, en termes statistiques, se réfère à la similitude ou à la cohérence des individus ou des observations au sein de cette population ou classe. Cela signifie que les membres de cette population ou classe présentent des caractéristiques ou des attributs similaires.↩︎