Calculer l’écart type avec python- la notion de l’écart type

18 mars 202229 octobre 2023 AZ

Dans ce tutoriel, nous calculons l’écart type avec python et nous montrons des exemples d’application.

L’écart type et la moyenne en Python

Souvent, les utilisateurs souhaitent évaluer la répartition de leurs données. Pour ce faire, ils doivent créer un histogramme et calculer l’écart type des données.

L’écart type (StDev) représente une mesure de l’étendue des données.

On peut exploiter l’écart type afin de déterminer la proportion des données qui se situe entre les multiples de cet écart type.

Ici, nous sommes en mesure de calculer ces pourcentages pour tout ensemble de données numériques.

Lorsque les données suivent une distribution normale, on peut estimer la valeur de sigma en divisant la plage des données (c’est-à-dire la différence entre la valeur maximale et la valeur minimale) par 4.

Alors que sigma évalue la dispersion des données, lorsqu’il s’agit de déterminer si des groupes de données présentent des niveaux de dispersion différents, il est nécessaire de comparer les variances des données au sein de ces groupes. La variance correspond simplement au carré de sigma.

L’identification des divergences dans les variances des groupes est utile pour évaluer si une amélioration du processus a réduit la variance par rapport à la période précédant cette amélioration.

Formule de l’écart type

La formule de l’écart type (standard deviation en anglais) est une mesure statistique de la dispersion ou de la variabilité des données dans un ensemble. On représente l’écart type par la lettre grecque sigma (σ) et on le calcule de la manière suivante :

Formule de l’écart type (population) :

[ \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (X_i - \mu)^2} ]

Formule de l'écart type (échantillon) :
[ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2} ]

Où :

( \sigma ) (ou ( s )) est l’écart type.
( N ) est la taille de la population totale (pour la formule de la population) ou ( n ) est la taille de l’échantillon (pour la formule de l’échantillon).
( X_i ) (ou ( x_i )) est chaque observation individuelle de la population ou de l’échantillon.
( \mu ) (ou ( \bar{x} )) est la moyenne de la population ou de l’échantillon.
“Évaluer la dispersion des données avec l’écart type”

Calcul de la valeur moyenne et l’écart type en Python

import math

def average(x):
    '''average(x) x is a vector'''
    d = len(x)
    av = 0
    for e in x:
        av = av + e
    av = float(av) / d
    return av

def sig2(x, av=None):
    '''sig2(x, av=None) x is a vector'''
    d = len(x)
    if not av:
        av = average(x)
    s2 = 0
    for e in x:
        dev = e - av
        s2 = s2 + dev * dev
    if d > 1:
        s2 = float(s2) / (d - 1)
    return s2

if __name__ == '__main__':
    numdata = int(input('number of data = '))
    if numdata <= 0:
        print("not enough data!", numdata)
    else:
        i = 0
        x = []
        while i < numdata:
            d = float(input('give me a value = '))
            x.append(d)
            i = i + 1
        av = average(x)
        s2 = sig2(x, av)
        print("data:", x)
        print("average =", av, "standard deviation =", math.sqrt(s2))

En Python, il y a la variable d’environnement “name” qui indique le nom de l’objet en cours d’exécution. Le premier module lancé a mis la valeur de “name” égale à ‘main’. Si vous écrivez un fichier contenant le code suivant, il s’exécutera uniquement lorsque vous le lancez directement en tant que programme principal. En revanche, si vous l’importez dans un autre script, il ne sera pas exécuté.

Cet exemple de code Python vous permet de calculer la moyenne et l’écart type d’un ensemble de données que vous saisissez.

Exemple d’utilisation de l’écart type :

L’écart type mesure la dispersion des données autour de la moyenne. Un écart type plus élevé indique une plus grande dispersion des données, tandis qu’un écart type plus faible signifie que les données se regroupent plus étroitement autour de la moyenne.

Évaluer la dispersion des données avec l’écart type

Supposons que vous avez un ensemble de données représentant les scores de tests d’étudiants dans une classe de mathématiques. Voici les scores de cinq étudiants :

( X = {85, 92, 88, 78, 96} )

Calculons d’abord la moyenne (( \mu )) de ces scores :
[ \mu = \frac{85 + 92 + 88 + 78 + 96}{5} = \frac{439}{5} = 87.8 ]
Ensuite, calculons l’écart type de l’échantillon (( s )) en utilisant la formule de l’écart type de l’échantillon :

[ s = \sqrt{\frac{1}{5-1} \sum_{i=1}^5 (x_i - \bar{x})^2} ]

[ s = \sqrt{\frac{1}{4}[(85-87.8)^2 + (92-87.8)^2 + (88-87.8)^2 + (78-87.8)^2 + (96-87.8)^2]} ]

Après avoir effectué les calculs, vous trouverez que ( s \approx 6.81 ).

L’écart type de l’échantillon de ces scores est d’environ 6.81, ce qui indique la dispersion des scores autour de la moyenne de 87.8. À mesure que l’écart type augmente, la dispersion des scores s’accroît, et inversement.

Les statisticiens utilisent couramment l’écart type pour évaluer la variabilité des données dans divers domaines, notamment en sciences, en finance, en économie et dans de nombreuses autres disciplines.

Nous avons introduit la manière de calculer une sommation ou une productrice avec Python. Maintenant que nous sommes également capables de traiter des listes de nombres, voyons comment calculer la valeur moyenne d’un ensemble de nombres Xi et l’écart-type (σ).

Voici quelques exemples d’utilisation de l’écart type en Python :

Calcul de l’écart type d’une liste de données

import numpy as np

data = [12, 15, 18, 22, 26, 30, 34]
std_deviation = np.std(data)
print("L'écart type des données est :", std_deviation)

Dans cet exemple, nous utilisons la bibliothèque NumPy pour calculer l’écart type d’un ensemble de données numériques.

Génération de données aléatoires avec un écart type spécifique

import numpy as np

mean = 50
std_deviation = 10
num_samples = 100
random_data = np.random.normal(mean, std_deviation, num_samples)
print("Données aléatoires générées avec une moyenne de 50 et un écart type de 10 :", random_data)

Ici, nous utilisons la bibliothèque NumPy pour générer des données aléatoires qui suivent une distribution normale avec une moyenne de 50 et un écart type de 10.

Évaluation de la performance d’un modèle de prédiction

Supposons que vous ayez un modèle de prédiction pour les ventes d’un produit. Vous pouvez utiliser l’écart type pour évaluer la dispersion entre les ventes réelles et les ventes prédites. Un écart type élevé indique une grande variabilité entre les prédictions et les ventes réelles.

import numpy as np

ventes_reelles = [100, 120, 110, 130, 140]
ventes_predites = [95, 125, 112, 135, 138]

ecarts = [r - p for r, p in zip(ventes_reelles, ventes_predites)]
ecart_type = np.std(ecarts)
print("L'écart type des écarts entre les ventes réelles et prédites est :", ecart_type)

Contrôle de la qualité dans la production

Dans le domaine de la fabrication, par conséquent, les professionnels utilisent fréquemment l’écart type pour évaluer la variation des caractéristiques d’un produit. En illustrant ce point, l’écart type peut servir à surveiller la cohérence des dimensions des composants au sein d’une chaîne de production.

Ces exemples mettent en évidence la large utilisation de l’écart type en Python dans diverses applications, allant de l’analyse de données à la gestion de la qualité.