Calculer la somme, la moyenne et la médiane d’une liste en Python : Approfondissement

L’analyse de données est une partie cruciale de la programmation, et la manipulation de listes de nombres est une tâche fréquente dans ce domaine. Calculer la somme, la moyenne et la médiane de ces listes est essentiel pour comprendre et interpréter les données. Dans cet article, nous allons explorer davantage ces concepts et discuter des cas avancés ainsi que des applications pratiques.

Manipulation avancée de listes

Calcul de la somme avec filtrage conditionnel

Dans de nombreuses situations, vous voudrez peut-être calculer la somme d’une sous-liste qui répond à une condition spécifique. Par exemple, supposons que vous ayez une liste de ventes mensuelles, mais vous ne souhaitez calculer la somme que des ventes supérieures à une certaine valeur seuil. Voici comment vous pourriez le faire en Python :

ventes_mensuelles = [1000, 1500, 800, 1200, 2000]
seuil = 1000

somme_ventes_sup_seuil = sum(vente for vente in ventes_mensuelles if vente > seuil)

print("La somme des ventes supérieures au seuil est :", somme_ventes_sup_seuil)

Dans cet exemple, nous utilisons une compréhension de liste avec une condition pour filtrer les ventes qui dépassent le seuil avant de calculer leur somme.

Manipulation avancée de listes

La moyenne pondérée est couramment utilisée dans le domaine financier, notamment pour calculer les indices boursiers. Vous pouvez l’implémenter en utilisant des dictionnaires pour stocker les valeurs et les poids correspondants. Voici un exemple :

valeurs = {"AAPL": 150, "GOOGL": 2500, "TSLA": 800}
poids = {"AAPL": 0.4, "GOOGL": 0.5, "TSLA": 0.1}

moyenne_ponderee = sum(valeurs[action] * poids[action] for action in valeurs) / sum(poids.values())

print("La moyenne pondérée des actions est :", moyenne_ponderee)

Dans cet exemple, nous utilisons deux dictionnaires, un pour les valeurs et un pour les poids, pour calculer la moyenne pondérée des actions.

Calcul de la médiane dans des scénarios complexes

Calcul de la médiane pondérée

Dans certains cas, vous pourriez avoir une liste de données où chaque élément a un poids différent. Pour calculer la médiane pondérée, vous pouvez trier la liste selon les valeurs pondérées et ensuite déterminer la médiane comme suit :

donnees = [(10, 0.2), (20, 0.3), (30, 0.1), (40, 0.2), (50, 0.2)]
donnees_triees = sorted(donnees, key=lambda x: x[0])
poids_cumulatifs = [sum(p[1] for p in donnees_triees[:i+1]) for i in range(len(donnees_triees))]

# Trouver l'élément du milieu en fonction des poids cumulatifs
indice_median = next(i for i, poids_cumulatif in enumerate(poids_cumulatifs) if poids_cumulatif >= 0.5)

mediane_ponderee = donnees_triees[indice_median][0]

print("La médiane pondérée des données est :", mediane_ponderee)

Dans cet exemple, nous utilisons une liste de données avec des valeurs et des poids, nous les trions en fonction des valeurs pondérées et nous calculons la médiane en utilisant les poids cumulatifs.

Calcul de la médiane sur des données en continu

Supposons que vous ayez une liste de données très volumineuse qui ne peut pas tenir en mémoire. Vous pouvez calculer la médiane en utilisant l’algorithme de médiane en continu (ou algorithme de sélection rapide). Cet algorithme permet de trouver la médiane sans avoir besoin de stocker l’intégralité de la liste en mémoire. Voici un exemple simplifié de cet algorithme :

import heapq

def calculer_mediane_continu(liste):
    min_heap = []
    max_heap = []

    for valeur in liste:
        if not max_heap or valeur < -max_heap[0]:
            heapq.heappush(max_heap, -valeur)
        else:
            heapq.heappush(min_heap, valeur)

        if len(max_heap) > len(min_heap) + 1:
            heapq.heappush(min_heap, -heapq.heappop(max_heap))
        elif len(min_heap) > len(max_heap):
            heapq.heappush(max_heap, -heapq.heappop(min_heap))

    if len(max_heap) == len(min_heap):
        mediane = (-max_heap[0] + min_heap[0]) / 2
    else:
        mediane = -max_heap[0]

    return mediane

donnees_continues = [12, 8, 14, 3, 9, 6, 5, 11, 2]
mediane_continue = calculer_mediane_continu(donnees_continues)

print("La médiane des données en continu est :", mediane_continue)

Dans cet exemple, nous utilisons deux tas (heapq) pour maintenir les éléments de la liste de données en continu et calculer la médiane.

Applications pratiques

Analyse de données réelles

Le calcul de la somme, de la moyenne et de la médiane est essentiel dans l’analyse de données réelles. Vous pouvez l’appliquer pour comprendre les tendances financières, les performances des produits, ou même dans des domaines comme la santé pour analyser des ensembles de données massifs.

Statistiques avancées

Dans des applications plus avancées, vous pouvez utiliser ces concepts pour calculer des statistiques avancées telles que l’écart-type, la variance, les quartiles et les déciles. Ces statistiques peuvent fournir des informations plus détaillées sur la distribution de données.

Intégration avec des bibliothèques d’analyse de données

En travaillant avec des bibliothèques comme NumPy et pandas, vous pouvez effectuer des calculs statistiques plus complexes sur des ensembles de données de grande taille, en plus de visualiser les résultats à l’aide de graphiques et de diagrammes.

Conclusion

Le calcul de la somme, de la moyenne et de la médiane d’une liste en Python est une compétence fondamentale pour tout développeur ou analyste de données

. En explorant des exemples avancés et en comprenant les différents cas d’utilisation, vous serez mieux préparé pour analyser et interpréter les données dans des scénarios réels. L’analyse de données est une compétence clé dans de nombreux domaines, de la finance à la recherche médicale, et maîtriser ces techniques vous ouvrira de nombreuses opportunités professionnelles.