Les types de modèles d’apprentissage automatique ( types of machine learning models )
L’apprentissage automatique (ou machine learning) regroupe des modèles algorithmiques qui permettent aux systèmes d’apprendre et de s’améliorer à partir de données sans avoir été explicitement programmés. Ces modèles se classent selon leur mode d’apprentissage, leur objectif ou leur structure de données. Voici un guide complet sur les types de modèles d’apprentissage automatique :
1. Selon les paradigmes d’apprentissage
a. Apprentissage supervisé
Les modèles supervisés s’entraînent sur des ensembles de données étiquetées, où chaque entrée est associée à une sortie correcte. Le modèle apprend ainsi à associer les entrées aux sorties.
- Cas d’utilisation :
- Prédictions (analyse prédictive)
- Tâches de classification (ex. : détection de spam)
- Tâches de régression (ex. : prévision des prix de l’immobilier)
- Algorithmes courants :
- Régression linéaire
- Régression logistique
- Machines à vecteurs de support (SVM)
- Arbres de décision
- Forêts aléatoires (Random Forest)
- Réseaux neuronaux
b. Apprentissage non supervisé
Les modèles non supervisés s’entraînent sur des données non étiquetées pour identifier des schémas ou structures cachées.
- Cas d’utilisation :
- Regroupement (ex. : segmentation de clients)
- Détection d’anomalies
- Réduction de dimension (ex. : ACP)
- Algorithmes courants :
- Clustering K-Moyennes
- Clustering hiérarchique
- Analyse en composantes principales (ACP)
- Autoencodeurs
c. Apprentissage semi-supervisé
Combine apprentissage supervisé et non supervisé, avec un petit ensemble de données étiquetées et un large ensemble non étiqueté.
- Cas d’utilisation :
- Diagnostic médical (peu de données étiquetées disponibles)
- Détection de fraude
d. Apprentissage par renforcement
Les modèles d’apprentissage par renforcement apprennent en interagissant avec un environnement et en recevant des récompenses ou pénalités.
- Cas d’utilisation :
- IA pour jeux vidéo (ex. : AlphaGo)
- Robotique
- Véhicules autonomes
- Concepts clés :
- Agent
- Environnement
- Fonction de récompense
- Politique (policy)
2. Selon le type de sortie
a. Modèles de régression
Ces modèles prédisent des valeurs continues.
- Exemples d’utilisation :
- Prévision des prix d’actions
- Estimation des températures
- Algorithmes :
- Régression linéaire
- Régression à vecteurs de support (SVR)
b. Modèles de classification
Ces modèles prédisent des étiquettes catégoriques.
- Exemples d’utilisation :
- Détection de spam
- Diagnostic médical
- Algorithmes :
- Régression logistique
- Arbres de décision
- Naïve Bayes
c. Modèles de regroupement (Clustering)
Ces modèles regroupent les données similaires en clusters.
- Exemples d’utilisation :
- Segmentation de marché
- Regroupement de documents
- Algorithmes :
- K-Moyennes
- DBSCAN
d. Modèles de réduction dimensionnelle
Ces modèles simplifient les données en réduisant le nombre de variables tout en conservant l’information essentielle.
- Exemples d’utilisation :
- Sélection de caractéristiques pour modèles prédictifs
- Visualisation de données
- Algorithmes :
- Analyse en composantes principales (ACP)
- t-SNE
3. Selon la représentation des données
a. Modèles basés sur les instances
Ces modèles font des prédictions en comparant de nouvelles instances à celles d’entraînement (apprentissage paresseux).
- Exemple :
- K-Plus Proches Voisins (KNN)
b. Modèles basés sur la généralisation
Ces modèles apprennent une règle générale basée sur les données d’entraînement (apprentissage actif).
- Exemples :
- Arbres de décision
- Réseaux neuronaux
4. Modèles spécialisés
a. Réseaux neuronaux
- Imite la structure du cerveau humain.
- Capable de modéliser des relations complexes.
- Types courants :
- Réseaux neuronaux classiques (Feedforward Neural Networks)
- Réseaux de neurones convolutionnels (CNN) : Reconnaissance d’images
- Réseaux de neurones récurrents (RNN) : Données séquentielles (séries temporelles, texte)
b. Modèles ensemblistes
- Combinaison de plusieurs modèles pour améliorer la précision.
- Types :
- Bagging : Forêts aléatoires
- Boosting : Machines à Gradient Boosté (GBM), AdaBoost
- Stacking : Combinaison de différents modèles
c. Modèles probabilistes
- Utilisent des distributions de probabilités pour prédire.
- Exemples :
- Réseaux Bayésiens
- Modèles de Markov Cachés (HMM)
5. Selon l’entraînement et le déploiement
a. Apprentissage en ligne
- Le modèle apprend continuellement à mesure que de nouvelles données arrivent.
- Utilisé dans des environnements dynamiques.
b. Apprentissage par lot
- Le modèle est formé sur un ensemble de données fixe et mis à jour périodiquement.
- Convient pour des environnements statiques.
6. Évaluation des modèles
Chaque type de modèle nécessite des métriques adaptées pour évaluer ses performances :
- Régression :
- Erreur absolue moyenne (MAE)
- Erreur quadratique moyenne (MSE)
- Coefficient de détermination (R²)
- Classification :
- Précision
- Précision, rappel, score F1
- Courbe ROC-AUC
- Regroupement :
- Score de silhouette
- Indice de Davies-Bouldin
Algorithmes supervisés courants
Les algorithmes supervisés sont largement utilisés pour résoudre des problèmes de classification (prédire des catégories) et de régression (prédire des valeurs continues). Voici une liste des algorithmes supervisés les plus courants avec une brève description de chacun :
1. Régression Linéaire
- Type de tâche : Régression
- Utilisée pour prédire une valeur continue en modélisant une relation linéaire entre les variables indépendantes (caractéristiques) et la variable dépendante (cible).
- Exemple : Prédire le prix d’une maison en fonction de sa superficie.
2. Régression Logistique
- Type de tâche : Classification
- Utilisée pour prédire une probabilité, souvent pour des problèmes de classification binaire (exemple : oui/non). Peut également être étendue à des classifications multinomiales.
- Exemple : Déterminer si un email est un spam ou non.
3. Arbres de Décision
- Type de tâche : Classification et régression
- Construit un arbre de décisions basé sur les caractéristiques des données. Chaque nœud représente un test sur une caractéristique, et chaque branche représente un résultat.
- Exemple : Identifier si un client achètera un produit en fonction de son comportement.
4. Forêts Aléatoires (Random Forests)
- Type de tâche : Classification et régression
- Ensemble d’arbres de décision indépendants. Les prédictions finales sont obtenues en agrégeant les prédictions des différents arbres (par vote ou moyenne).
- Exemple : Prédire le score de crédit d’un client.
5. Machines à Vecteurs de Support (Support Vector Machines – SVM)
- Type de tâche : Classification et régression
- Trouve un hyperplan optimal qui sépare les classes dans un espace à dimensions multiples. Convient bien pour des problèmes de classification non linéaires grâce à l’utilisation de kernels.
- Exemple : Classifier les espèces de fleurs selon leurs dimensions (famous Iris dataset).
6. K-Plus Proches Voisins (K-Nearest Neighbors – KNN)
- Type de tâche : Classification et régression
- Classe une instance en fonction des classes de ses voisins les plus proches dans les données d’entraînement (selon une distance, comme Euclidienne).
- Exemple : Identifier la catégorie d’un produit en fonction des caractéristiques similaires des produits voisins.
7. Naïve Bayes
- Type de tâche : Classification
- Basé sur le théorème de Bayes avec une hypothèse d’indépendance conditionnelle entre les caractéristiques. Efficace pour des données textuelles.
- Exemple : Classifier des emails comme spam ou non-spam.
8. Réseaux de Neurones Artificiels (Artificial Neural Networks – ANN)
- Type de tâche : Classification et régression
- Modélise des relations complexes entre les caractéristiques et la cible à l’aide de couches de neurones connectés. Idéal pour des ensembles de données non linéaires.
- Exemple : Prédire la reconnaissance faciale.
9. Modèles de Régression des Arbres Boostés
- Type de tâche : Classification et régression
- Combine des modèles simples (arbres de décision) pour corriger les erreurs des prédictions précédentes.
- Exemples d’algorithmes :
- Gradient Boosting Machines (GBM)
- AdaBoost
- XGBoost
- LightGBM
10. Régression à Vecteurs de Support (Support Vector Regression – SVR)
- Type de tâche : Régression
- Une variante des SVM conçue pour résoudre des problèmes de régression en ajustant un hyperplan dans une marge d’erreur.
- Exemple : Prédire les ventes d’un produit en fonction des données historiques.
11. Modèles Linéaires Généralisés (Generalized Linear Models – GLM)
- Type de tâche : Classification et régression
- Extensions de la régression linéaire pour modéliser des relations non linéaires (exemple : régression log-linéaire).
- Exemple : Analyser l’impact de plusieurs facteurs sur un résultat binaire (exemple : réussite/échec).
12. Modèles de Série Temporelle (ARIMA, SARIMA, etc.)
- Type de tâche : Régression
- Utilisés pour analyser et prédire des séries temporelles. Ces modèles combinent auto-régressions et moyennes mobiles.
- Exemple : Prédire les ventes mensuelles d’une entreprise.
Résumé des domaines d’application :
Algorithme | Type de Tâche | Exemples |
---|---|---|
Régression Linéaire | Régression | Prédiction des prix |
Régression Logistique | Classification | Détection de spam |
Arbres de Décision | Classification/Régression | Analyse des risques de crédit |
Forêts Aléatoires | Classification/Régression | Segmentation de clients |
SVM | Classification/Régression | Reconnaissance d’images |
KNN | Classification/Régression | Classification de produits |
Naïve Bayes | Classification | Analyse des sentiments |
ANN | Classification/Régression | Reconnaissance vocale |
Boosting | Classification/Régression | Prévision des fraudes |
Ces algorithmes supervisés sont adaptés à divers contextes et choix dépendront de la nature des données et des objectifs à atteindre.