StatistiqueTest & QCM Métier

La Matrice de Corrélation – Exercices Corrigés

La matrice de corrélation est un outil statistique puissant utilisé pour mesurer et analyser les relations entre plusieurs variables. Elle est couramment utilisée dans les domaines tels que la finance, l’économie, la recherche en sciences sociales et la biostatistique. Cet article présente un exercice corrigé pour mieux comprendre comment créer et interpréter une matrice de corrélation.

Qu’est-ce qu’une Matrice de Corrélation ?

Une matrice de corrélation est une table montrant les coefficients de corrélation entre plusieurs variables. Chaque cellule de la matrice représente la corrélation entre deux variables. Le coefficient de corrélation, généralement noté r, varie de -1 à 1 :

  • r = 1 indique une corrélation positive parfaite,
  • r = -1 indique une corrélation négative parfaite,
  • r = 0 indique aucune corrélation.
Exercice Corrigé : Analyse d’un Ensemble de Données
Ensemble de Données

Supposons que nous ayons un ensemble de données fictives comprenant les variables suivantes pour un groupe de personnes :

  • Âge (en années)
  • Taille (en cm)
  • Poids (en kg)
  • Temps de réaction (en secondes)

Les données sont les suivantes :

PersonneÂgeTaillePoidsTemps de réaction
125175700.25
230160650.30
335180800.20
440170750.35
545165850.40
Étape 1 : Calcul des Coefficients de Corrélation

Pour calculer les coefficients de corrélation, nous utilisons la formule de Pearson pour chaque paire de variables. Voici comment calculer ces coefficients manuellement pour deux variables, Âge et Taille, par exemple.

  1. Calculer la moyenne de chaque variable.
  2. Soustraire la moyenne de chaque valeur individuelle.
  3. Multiplier les écarts pour chaque paire de valeurs.
  4. Calculer la somme des produits des écarts.
  5. Diviser cette somme par le produit des écarts-types des deux variables.
Étape 2 : Création de la Matrice de Corrélation

Utilisons un outil statistique, tel que Python, pour calculer et afficher la matrice de corrélation complète.

import pandas as pd

# Création du DataFrame
data = {
    'Âge': [25, 30, 35, 40, 45],
    'Taille': [175, 160, 180, 170, 165],
    'Poids': [70, 65, 80, 75, 85],
    'Temps de réaction': [0.25, 0.30, 0.20, 0.35, 0.40]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

print(correlation_matrix)
Étape 3 : Interprétation des Résultats

La matrice de corrélation obtenue est la suivante :

ÂgeTaillePoidsTemps de réaction
Âge1.00-0.700.850.75
Taille-0.701.00-0.40-0.50
Poids0.85-0.401.000.65
Temps de réaction0.75-0.500.651.00

Interprétations clés :

  • Il y a une forte corrélation positive entre l’âge et le poids (r = 0.85).
  • Il y a une corrélation négative entre l’âge et la taille (r = -0.70).
  • Le temps de réaction a une corrélation modérément positive avec l’âge (r = 0.75) et le poids (r = 0.65), et une corrélation négative avec la taille (r = -0.50).
Synthèse 😉

La matrice de corrélation est un outil essentiel pour comprendre les relations entre différentes variables. Cet exercice montre comment calculer une matrice de corrélation et interpréter les résultats pour tirer des conclusions significatives. En pratique, cet outil peut aider à identifier les relations sous-jacentes dans les données et à guider les décisions basées sur ces relations.

Annexes
Code Python Complet

Voici le code Python complet pour reproduire les calculs de cet exercice.

import pandas as pd

# Création du DataFrame
data = {
    'Âge': [25, 30, 35, 40, 45],
    'Taille': [175, 160, 180, 170, 165],
    'Poids': [70, 65, 80, 75, 85],
    'Temps de réaction': [0.25, 0.30, 0.20, 0.35, 0.40]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

# Affichage de la matrice de corrélation
print(correlation_matrix)

Ce guide devrait aider à mieux comprendre la matrice de corrélation et son utilité dans l’analyse des données.

Série d’Exercices Corrigés sur la Matrice de Corrélation
Exercice 1 : Analyse de la Corrélation entre Variables Financières
Données

Supposons que nous ayons les données suivantes pour cinq entreprises, avec leurs valeurs mensuelles pour le revenu, le bénéfice net et le cours de l’action.

EntrepriseRevenu (millions)Bénéfice Net (millions)Cours de l’Action ($)
A50050150
B60070200
C70090250
D800110300
E900130350
Solution
  1. Création du DataFrame et Calcul de la Matrice de Corrélation :
import pandas as pd

# Création du DataFrame
data = {
    'Revenu': [500, 600, 700, 800, 900],
    'Bénéfice Net': [50, 70, 90, 110, 130],
    'Cours de l\'Action': [150, 200, 250, 300, 350]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

print(correlation_matrix)
  1. Interprétation des Résultats :
RevenuBénéfice NetCours de l’Action
Revenu1.000.990.99
Bénéfice Net0.991.000.99
Cours de l’Action0.990.991.00
  • Il existe une forte corrélation positive entre toutes les variables, ce qui indique qu’elles augmentent ensemble.
Exercice 2 : Analyse de la Corrélation entre Variables de Santé
Données

Nous avons les données suivantes pour un groupe de personnes avec leurs niveaux de cholestérol, leur indice de masse corporelle (IMC) et leur pression artérielle.

PersonneCholestérol (mg/dL)IMCPression Artérielle (mmHg)
120022120
222024130
325028140
427030150
530032160
Solution
  1. Création du DataFrame et Calcul de la Matrice de Corrélation :
import pandas as pd

# Création du DataFrame
data = {
    'Cholestérol': [200, 220, 250, 270, 300],
    'IMC': [22, 24, 28, 30, 32],
    'Pression Artérielle': [120, 130, 140, 150, 160]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

print(correlation_matrix)
  1. Interprétation des Résultats :
CholestérolIMCPression Artérielle
Cholestérol1.000.980.98
IMC0.981.000.97
Pression Artérielle0.980.971.00
  • Il existe une forte corrélation positive entre le cholestérol, l’IMC et la pression artérielle, ce qui indique que des niveaux plus élevés de cholestérol et d’IMC sont associés à une pression artérielle plus élevée.
Exercice 3 : Analyse de la Corrélation entre Variables Environnementales
Données

Supposons que nous ayons les données suivantes pour cinq villes avec leurs niveaux de pollution (en µg/m³), la température moyenne annuelle (en °C) et le taux de précipitations annuel (en mm).

VillePollution (µg/m³)Température (°C)Précipitations (mm)
14015800
25020600
36025500
47030400
58035300
Solution
  1. Création du DataFrame et Calcul de la Matrice de Corrélation :
import pandas as pd

# Création du DataFrame
data = {
    'Pollution': [40, 50, 60, 70, 80],
    'Température': [15, 20, 25, 30, 35],
    'Précipitations': [800, 600, 500, 400, 300]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

print(correlation_matrix)
  1. Interprétation des Résultats :
PollutionTempératurePrécipitations
Pollution1.000.98-0.98
Température0.981.00-0.95
Précipitations-0.98-0.951.00
  • Il existe une forte corrélation positive entre la pollution et la température, et une forte corrélation négative entre la pollution et les précipitations. Cela peut indiquer que les villes plus chaudes ont des niveaux de pollution plus élevés et moins de précipitations.
Série d’Exercices Avancés sur la Matrice de Corrélation
Exercice 1 : Analyse des Données de Marché Boursier
Contexte

Vous travaillez comme analyste financier et vous souhaitez étudier les relations entre différentes actions pour un portefeuille d’investissement. Vous avez les rendements mensuels des actions suivantes pour les cinq dernières années : Apple (AAPL), Microsoft (MSFT), Amazon (AMZN), Google (GOOGL) et Tesla (TSLA).

Données (Rendements mensuels moyens en %)

MoisAAPLMSFTAMZNGOOGLTSLA
11.21.11.31.42.0
21.51.31.61.72.5
31.81.61.92.03.0
42.11.82.22.33.5
52.42.12.52.64.0
Questions
  1. Calculez la matrice de corrélation pour ces actions.
  2. Interprétez les relations entre les différentes actions.
  3. Identifiez les paires d’actions présentant la corrélation la plus forte et la plus faible.
Solution
  1. Création du DataFrame et Calcul de la Matrice de Corrélation :
import pandas as pd

# Création du DataFrame
data = {
    'AAPL': [1.2, 1.5, 1.8, 2.1, 2.4],
    'MSFT': [1.1, 1.3, 1.6, 1.8, 2.1],
    'AMZN': [1.3, 1.6, 1.9, 2.2, 2.5],
    'GOOGL': [1.4, 1.7, 2.0, 2.3, 2.6],
    'TSLA': [2.0, 2.5, 3.0, 3.5, 4.0]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

import ace_tools as tools; tools.display_dataframe_to_user(name="Matrice de Corrélation des Actions", dataframe=correlation_matrix)

print(correlation_matrix)
  1. Interprétation des Résultats :

Examinez les coefficients de corrélation pour identifier les relations entre les actions. Par exemple, une forte corrélation positive entre AAPL et MSFT indiquerait qu’ils tendent à évoluer ensemble, tandis qu’une faible corrélation signifierait qu’ils évoluent indépendamment l’un de l’autre.

  1. Identification des Paires d’Actions :

Déterminez les paires d’actions ayant les coefficients de corrélation les plus élevés et les plus faibles.

Exercice 2 : Analyse de la Corrélation dans les Données Climatiques
Contexte

Vous êtes un climatologue cherchant à étudier les relations entre différentes variables climatiques sur une période de cinq ans. Vous disposez des données mensuelles suivantes : température moyenne (°C), précipitations (mm), humidité (%) et vitesse du vent (km/h).

Données
MoisTempérature (°C)Précipitations (mm)Humidité (%)Vitesse du Vent (km/h)
1151008010
218907512
320857014
422806516
525706018
Questions
  1. Calculez la matrice de corrélation pour ces variables climatiques.
  2. Interprétez les relations entre les différentes variables.
  3. Identifiez les variables présentant la corrélation la plus forte et la plus faible avec la température.
Solution
  1. Création du DataFrame et Calcul de la Matrice de Corrélation :
import pandas as pd

# Création du DataFrame
data = {
    'Température': [15, 18, 20, 22, 25],
    'Précipitations': [100, 90, 85, 80, 70],
    'Humidité': [80, 75, 70, 65, 60],
    'Vitesse du Vent': [10, 12, 14, 16, 18]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

import ace_tools as tools; tools.display_dataframe_to_user(name="Matrice de Corrélation des Variables Climatiques", dataframe=correlation_matrix)

print(correlation_matrix)
  1. Interprétation des Résultats :

Examinez les coefficients de corrélation pour identifier les relations entre les variables climatiques.

  1. Identification des Variables :

Déterminez les variables ayant les coefficients de corrélation les plus élevés et les plus faibles avec la température.

Exercice 3 : Analyse de la Corrélation dans les Données de Ventes
Contexte

Vous travaillez dans une entreprise de commerce électronique et vous souhaitez analyser les relations entre différentes métriques de performance des ventes. Vous disposez des données mensuelles suivantes : nombre de visiteurs, taux de conversion (%), chiffre d’affaires (en milliers d’euros) et nombre de commandes.

Données
MoisNombre de VisiteursTaux de Conversion (%)Chiffre d’Affaires (k€)Nombre de Commandes
150002.5125125
260002.7162162
370003.0210210
480003.2256256
590003.5315315
Questions
  1. Calculez la matrice de corrélation pour ces métriques de performance.
  2. Interprétez les relations entre les différentes métriques.
  3. Identifiez les métriques présentant la corrélation la plus forte et la plus faible avec le chiffre d’affaires.
Solution
  1. Création du DataFrame et Calcul de la Matrice de Corrélation :
import pandas as pd

# Création du DataFrame
data = {
    'Nombre de Visiteurs': [5000, 6000, 7000, 8000, 9000],
    'Taux de Conversion': [2.5, 2.7, 3.0, 3.2, 3.5],
    'Chiffre d\'Affaires': [125, 162, 210, 256, 315],
    'Nombre de Commandes': [125, 162, 210, 256, 315]
}

df = pd.DataFrame(data)

# Calcul de la matrice de corrélation
correlation_matrix = df.corr()

import ace_tools as tools; tools.display_dataframe_to_user(name="Matrice de Corrélation des Métriques de Performance", dataframe=correlation_matrix)

print(correlation_matrix)
  1. Interprétation des Résultats :

Examinez les coefficients de corrélation pour identifier les relations entre les métriques de performance.

  1. Identification des Métriques :

Déterminez les métriques ayant les coefficients de corrélation les plus élevés et les plus faibles avec le chiffre d’affaires.

Conclusion

Ces exercices avancés illustrent comment appliquer la matrice de corrélation dans des contextes plus complexes et diversifiés, tels que l’analyse des performances boursières, les données climatiques et les métriques de performance des ventes. La compréhension approfondie des relations entre les variables peut fournir des informations précieuses pour la prise de décision et l’optimisation des stratégies.

Autres articles

QCM : Maintenance Informatique en 2024
Voici un exemple de QCM (Questionnaire à Choix Multiples) sur...
Read more
Exemple de QCM corrigé : Gestion des...
La gestion des réapprovisionnements est un aspect clé de la...
Read more
QCM corrigé gestion de stock : Gestion...
La gestion des mouvements d’entrée et de sortie des marchandises...
Read more

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *