Les types de modèles d’apprentissage automatique ( types of machine learning models )
L’apprentissage automatique (ou machine learning) regroupe des modèles algorithmiques qui permettent aux systèmes d’apprendre et de s’améliorer à partir de données sans avoir été explicitement programmés. Ces modèles se classent selon leur mode d’apprentissage, leur objectif ou leur structure de données. Voici un guide complet sur les types de modèles d’apprentissage automatique :
1. Selon les paradigmes d’apprentissage
a. Apprentissage supervisé
Les modèles supervisés s’entraînent sur des ensembles de données étiquetées, où chaque entrée est associée à une sortie correcte. Le modèle apprend ainsi à associer les entrées aux sorties.
Cas d’utilisation :
Prédictions (analyse prédictive)
Tâches de classification (ex. : détection de spam)
Tâches de régression (ex. : prévision des prix de l’immobilier)
Algorithmes courants :
Régression linéaire
Régression logistique
Machines à vecteurs de support (SVM)
Arbres de décision
Forêts aléatoires (Random Forest)
Réseaux neuronaux
b. Apprentissage non supervisé
Les modèles non supervisés s’entraînent sur des données non étiquetées pour identifier des schémas ou structures cachées.
Cas d’utilisation :
Regroupement (ex. : segmentation de clients)
Détection d’anomalies
Réduction de dimension (ex. : ACP)
Algorithmes courants :
Clustering K-Moyennes
Clustering hiérarchique
Analyse en composantes principales (ACP)
Autoencodeurs
c. Apprentissage semi-supervisé
Combine apprentissage supervisé et non supervisé, avec un petit ensemble de données étiquetées et un large ensemble non étiqueté.
Cas d’utilisation :
Diagnostic médical (peu de données étiquetées disponibles)
Détection de fraude
d. Apprentissage par renforcement
Les modèles d’apprentissage par renforcement apprennent en interagissant avec un environnement et en recevant des récompenses ou pénalités.
Cas d’utilisation :
IA pour jeux vidéo (ex. : AlphaGo)
Robotique
Véhicules autonomes
Concepts clés :
Agent
Environnement
Fonction de récompense
Politique (policy)
2. Selon le type de sortie
a. Modèles de régression
Ces modèles prédisent des valeurs continues.
Exemples d’utilisation :
Prévision des prix d’actions
Estimation des températures
Algorithmes :
Régression linéaire
Régression à vecteurs de support (SVR)
b. Modèles de classification
Ces modèles prédisent des étiquettes catégoriques.
Exemples d’utilisation :
Détection de spam
Diagnostic médical
Algorithmes :
Régression logistique
Arbres de décision
Naïve Bayes
c. Modèles de regroupement (Clustering)
Ces modèles regroupent les données similaires en clusters.
Exemples d’utilisation :
Segmentation de marché
Regroupement de documents
Algorithmes :
K-Moyennes
DBSCAN
d. Modèles de réduction dimensionnelle
Ces modèles simplifient les données en réduisant le nombre de variables tout en conservant l’information essentielle.
Exemples d’utilisation :
Sélection de caractéristiques pour modèles prédictifs
Visualisation de données
Algorithmes :
Analyse en composantes principales (ACP)
t-SNE
3. Selon la représentation des données
a. Modèles basés sur les instances
Ces modèles font des prédictions en comparant de nouvelles instances à celles d’entraînement (apprentissage paresseux).
Exemple :
K-Plus Proches Voisins (KNN)
b. Modèles basés sur la généralisation
Ces modèles apprennent une règle générale basée sur les données d’entraînement (apprentissage actif).
Combinaison de plusieurs modèles pour améliorer la précision.
Types :
Bagging : Forêts aléatoires
Boosting : Machines à Gradient Boosté (GBM), AdaBoost
Stacking : Combinaison de différents modèles
c. Modèles probabilistes
Utilisent des distributions de probabilités pour prédire.
Exemples :
Réseaux Bayésiens
Modèles de Markov Cachés (HMM)
5. Selon l’entraînement et le déploiement
a. Apprentissage en ligne
Le modèle apprend continuellement à mesure que de nouvelles données arrivent.
Utilisé dans des environnements dynamiques.
b. Apprentissage par lot
Le modèle est formé sur un ensemble de données fixe et mis à jour périodiquement.
Convient pour des environnements statiques.
6. Évaluation des modèles
Chaque type de modèle nécessite des métriques adaptées pour évaluer ses performances :
Régression :
Erreur absolue moyenne (MAE)
Erreur quadratique moyenne (MSE)
Coefficient de détermination (R²)
Classification :
Précision
Précision, rappel, score F1
Courbe ROC-AUC
Regroupement :
Score de silhouette
Indice de Davies-Bouldin
Algorithmes supervisés courants
Les algorithmes supervisés sont largement utilisés pour résoudre des problèmes de classification (prédire des catégories) et de régression (prédire des valeurs continues). Voici une liste des algorithmes supervisés les plus courants avec une brève description de chacun :
1. Régression Linéaire
Type de tâche : Régression
Utilisée pour prédire une valeur continue en modélisant une relation linéaire entre les variables indépendantes (caractéristiques) et la variable dépendante (cible).
Exemple : Prédire le prix d’une maison en fonction de sa superficie.
2. Régression Logistique
Type de tâche : Classification
Utilisée pour prédire une probabilité, souvent pour des problèmes de classification binaire (exemple : oui/non). Peut également être étendue à des classifications multinomiales.
Exemple : Déterminer si un email est un spam ou non.
3. Arbres de Décision
Type de tâche : Classification et régression
Construit un arbre de décisions basé sur les caractéristiques des données. Chaque nœud représente un test sur une caractéristique, et chaque branche représente un résultat.
Exemple : Identifier si un client achètera un produit en fonction de son comportement.
4. Forêts Aléatoires (Random Forests)
Type de tâche : Classification et régression
Ensemble d’arbres de décision indépendants. Les prédictions finales sont obtenues en agrégeant les prédictions des différents arbres (par vote ou moyenne).
Exemple : Prédire le score de crédit d’un client.
5. Machines à Vecteurs de Support (Support Vector Machines – SVM)
Type de tâche : Classification et régression
Trouve un hyperplan optimal qui sépare les classes dans un espace à dimensions multiples. Convient bien pour des problèmes de classification non linéaires grâce à l’utilisation de kernels.
Exemple : Classifier les espèces de fleurs selon leurs dimensions (famous Iris dataset).
Classe une instance en fonction des classes de ses voisins les plus proches dans les données d’entraînement (selon une distance, comme Euclidienne).
Exemple : Identifier la catégorie d’un produit en fonction des caractéristiques similaires des produits voisins.
7. Naïve Bayes
Type de tâche : Classification
Basé sur le théorème de Bayes avec une hypothèse d’indépendance conditionnelle entre les caractéristiques. Efficace pour des données textuelles.
Exemple : Classifier des emails comme spam ou non-spam.
8. Réseaux de Neurones Artificiels (Artificial Neural Networks – ANN)
Type de tâche : Classification et régression
Modélise des relations complexes entre les caractéristiques et la cible à l’aide de couches de neurones connectés. Idéal pour des ensembles de données non linéaires.
Exemple : Prédire la reconnaissance faciale.
9. Modèles de Régression des Arbres Boostés
Type de tâche : Classification et régression
Combine des modèles simples (arbres de décision) pour corriger les erreurs des prédictions précédentes.
Exemples d’algorithmes :
Gradient Boosting Machines (GBM)
AdaBoost
XGBoost
LightGBM
10. Régression à Vecteurs de Support (Support Vector Regression – SVR)
Type de tâche : Régression
Une variante des SVM conçue pour résoudre des problèmes de régression en ajustant un hyperplan dans une marge d’erreur.
Exemple : Prédire les ventes d’un produit en fonction des données historiques.
11. Modèles Linéaires Généralisés (Generalized Linear Models – GLM)
Type de tâche : Classification et régression
Extensions de la régression linéaire pour modéliser des relations non linéaires (exemple : régression log-linéaire).
Exemple : Analyser l’impact de plusieurs facteurs sur un résultat binaire (exemple : réussite/échec).
12. Modèles de Série Temporelle (ARIMA, SARIMA, etc.)
Type de tâche : Régression
Utilisés pour analyser et prédire des séries temporelles. Ces modèles combinent auto-régressions et moyennes mobiles.
Exemple : Prédire les ventes mensuelles d’une entreprise.
Résumé des domaines d’application :
Algorithme
Type de Tâche
Exemples
Régression Linéaire
Régression
Prédiction des prix
Régression Logistique
Classification
Détection de spam
Arbres de Décision
Classification/Régression
Analyse des risques de crédit
Forêts Aléatoires
Classification/Régression
Segmentation de clients
SVM
Classification/Régression
Reconnaissance d’images
KNN
Classification/Régression
Classification de produits
Naïve Bayes
Classification
Analyse des sentiments
ANN
Classification/Régression
Reconnaissance vocale
Boosting
Classification/Régression
Prévision des fraudes
Ces algorithmes supervisés sont adaptés à divers contextes et choix dépendront de la nature des données et des objectifs à atteindre.