Python

Tutoriel Python & Scikit-learn : KNN (k-nearest neighbors)

Dans ce tutoriel, nous allons explorer l’algorithme des k-plus proches voisins (KNN) en utilisant Python et la bibliothèque Scikit-learn. KNN est un algorithme d’apprentissage supervisé utilisé pour la classification et la régression.

Comprendre KNN

L’algorithme des k-plus proches voisins est basé sur le principe que les points de données similaires tendent à être proches les uns des autres. Dans la classification KNN, lorsque nous devons attribuer une classe à un nouvel échantillon, nous regardons les k échantillons les plus proches (en termes de distance) et attribuons la classe majoritaire parmi ces voisins.

Implémentation en Python

Nous utiliserons la bibliothèque Scikit-learn pour implémenter KNN.

Tout d’abord, assurez-vous d’installer Scikit-learn s’il n’est pas déjà installé :

pip install scikit-learn

Ensuite, voici un exemple simple d’implémentation KNN pour la classification :

# Import des bibliothèques nécessaires
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

# Charger l'ensemble de données Iris
iris = load_iris()
X = iris.data
y = iris.target

# Diviser l'ensemble de données en ensembles de formation et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialiser le classificateur KNN avec k=3
knn = KNeighborsClassifier(n_neighbors=3)

# Entraîner le classificateur sur l'ensemble de formation
knn.fit(X_train, y_train)

# Prédire les classes pour l'ensemble de test
y_pred = knn.predict(X_test)

# Calculer la précision
accuracy = metrics.accuracy_score(y_test, y_pred)
print("Précision :", accuracy)

Dans cet exemple, nous utilisons l’ensemble de données Iris, divisons les données en ensembles de formation et de test, initialisons un classificateur KNN avec k=3, entraînons le modèle sur l’ensemble de formation et évaluons la précision sur l’ensemble de test.

Voici comment ces cas particuliers peuvent être accompagnés de code Python utilisant l’algorithme KNN :

1. Jeu de données non linéairement séparables :
from sklearn.datasets import make_moons
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Générer un jeu de données non linéairement séparables
X, y = make_moons(n_samples=1000, noise=0.3, random_state=42)

# Diviser l'ensemble de données en ensembles de formation et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialiser le classificateur KNN
knn = KNeighborsClassifier(n_neighbors=5)

# Entraîner le classificateur sur l'ensemble de formation
knn.fit(X_train, y_train)

# Prédire les classes pour l'ensemble de test
y_pred = knn.predict(X_test)

# Calculer la précision
accuracy = accuracy_score(y_test, y_pred)
print("Précision :", accuracy)
2. Classification de données déséquilibrées :
from sklearn.datasets import make_classification
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Générer un jeu de données déséquilibré
X, y = make_classification(n_samples=1000, n_features=20, weights=[0.1, 0.9], random_state=42)

# Diviser l'ensemble de données en ensembles de formation et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialiser le classificateur KNN
knn = KNeighborsClassifier(n_neighbors=5)

# Entraîner le classificateur sur l'ensemble de formation
knn.fit(X_train, y_train)

# Prédire les classes pour l'ensemble de test
y_pred = knn.predict(X_test)

# Calculer la précision
accuracy = accuracy_score(y_test, y_pred)
print("Précision :", accuracy)
3. Données à haute dimensionnalité :
from sklearn.datasets import make_classification
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score

# Générer un jeu de données à haute dimensionnalité
X, y = make_classification(n_samples=1000, n_features=100, random_state=42)

# Réduire la dimensionnalité avec l'analyse en composantes principales (PCA)
pca = PCA(n_components=10)
X_pca = pca.fit_transform(X)

# Diviser l'ensemble de données en ensembles de formation et de test
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.2, random_state=42)

# Initialiser le classificateur KNN
knn = KNeighborsClassifier(n_neighbors=5)

# Entraîner le classificateur sur l'ensemble de formation
knn.fit(X_train, y_train)

# Prédire les classes pour l'ensemble de test
y_pred = knn.predict(X_test)

# Calculer la précision
accuracy = accuracy_score(y_test, y_pred)
print("Précision :", accuracy)
4. Peu de données d’entraînement :
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Charger l'ensemble de données Iris
iris = load_iris()
X = iris.data
y = iris.target

# Diviser l'ensemble de données en ensembles de formation et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=42)

# Initialiser le classificateur KNN
knn = KNeighborsClassifier(n_neighbors=5)

# Entraîner le classificateur sur l'ensemble de formation
knn.fit(X_train, y_train)

# Prédire les classes pour l'ensemble de test
y_pred = knn.predict(X_test)

# Calculer la précision
accuracy = accuracy_score(y_test, y_pred)
print("Précision :", accuracy)
5. Changements fréquents dans les données :

KNN peut être adapté pour prendre en compte les changements fréquents en réentraînant simplement le modèle avec les nouvelles données.

Ces exemples illustrent comment l’algorithme KNN peut être utilisé dans différents cas particuliers avec du code Python.

Conclusion

KNN est un algorithme simple mais puissant pour la classification et la régression. En utilisant Python et Scikit-learn, nous pouvons facilement implémenter et expérimenter avec cet algorithme sur divers ensembles de données. N’hésitez pas à ajuster la valeur de k et à explorer d’autres fonctionnalités de Scikit-learn pour approfondir votre compréhension de KNN et de l’apprentissage automatique en général.

Autres articles

Programmation Python dans la Pratique : Gestionnaire...
📌 Introduction La programmation en Python est idéale pour développer des...
Read more
Guide Pratique de Programmation en Python
Cet article explore un guide complet en programmation python et...
Read more
Série d'Exercices de Programmation python avec un...
Voici une série d'exercices de programmation en Python, classés par...
Read more
Exemples Corrigés QCM Python - Concatenation de...
Voici une série de questions à choix multiples (QCM) portant...
Read more
Maîtriser l'utilisation de la méthode join en...
La méthode join en Python est un outil puissant pour...
Read more
Comment Gérer Efficacement le Budget Mariage avec...
Télécharger un modèle Excel automatisé de budget mariage automatisé avec...
Read more
AZ

Recent Posts

GUIDE : RÉDIGER UNE NOTE DE SYNTHÈSE ADMINISTRATIVE

La note de synthèse administrative a pour but de : Transmettre de manière claire, concise…

11 heures ago

Le Tableau de Bord Comptable – Guide Pratique et Stratégique

Télécharger un modèle de tableau de bord comptable complet dans Excel Automatisé et réutilisable ⬇️…

13 heures ago

Les Indicateurs Financiers Synthétiques Basés sur les États Financiers : Définition et Utilisation

Les états financiers (bilan, compte de résultat, tableau de flux de trésorerie) sont la base…

17 heures ago

Analyse Financière : Principaux Ratios et Leurs Calculs

L'analyse financière est une étape cruciale pour évaluer la santé économique d'une entreprise. Cela permet…

18 heures ago

QCM métier pour un entretien d’embauche : Analyste Financier

L’entretien pour un poste d’analyste financier s’accompagne souvent de mises en situation, de tests pratiques…

20 heures ago

La Note Stratégique : méthodologie de rédaction avec un canevas à remplir

Contexte Avec une pression croissante sur les délais, la qualité de service et l’efficience des…

22 heures ago

This website uses cookies.