Comment commencer un projet du machine learning ML / IA ?

Nous pouvons définir l’apprentissage automatique(machine learning / ML) comme une filière de la data science qui utilise des modèles statistiques pour obtenir des informations et faire des prédictions.

Dans cet article, nous parlons du cadrage d’un projet machine learning.

Quels sont les différents types de modèles d’apprentissage automatique ?

Selon la situation, les algorithmes d’apprentissage automatique fonctionnent avec plus ou moins d’intervention/renforcement humain. Les quatre principaux modèles d’apprentissage automatique sont l’apprentissage supervisé, l’apprentissage non supervisé, l’apprentissage semi-supervisé et l’apprentissage par renforcement.

Avec l’apprentissage supervisé, la machine dispose d’un ensemble étiqueté de données qui lui permet d’apprendre à effectuer une tâche humaine. C’est le modèle le moins complexe, car il tente de reproduire l’apprentissage humain.

Avec l’apprentissage non supervisé, la machine prend des données non étiquetées et en extrait des informations ou des modèles jusqu’alors inconnus. Il existe de nombreuses façons différentes pour les algorithmes d’apprentissage automatique, notamment :

Clustering, où la machine trouve des points de données similaires dans un groupe de données et les regroupe en conséquence (création de “clusters”).
Estimation de la densité, où la machine découvre des informations en voyant comment l’ensemble de données est distribué.
Détection d’anomalies, où la machine identifie des points de données dans un ensemble de données qui sont significativement différents du reste.
Analyse en composantes principales (ACP), où la machine analyse un ensemble de données et le résume afin qu’il puisse être utilisé pour faire des prédictions précises.

Bon à voir : le type des algorithmes ML

Régression linéaire, régression logistique, arbre de décision, forêt aléatoire, KNN (K-Nearest Neighbors), machines à vecteurs de support (SVM)

Comment se lancer dans un projet de machine learning ?

La concrétisation d’un projet de machine learning passe par plusieurs étapes:

Définir le problème à modéliser :

Tout d’abord, vous devez définir la problématique que vous voulez modéliser et être capable d’y prédire des outputs. En réalité, le machine learning vous permet d’être plus compétitif dans votre activité et plus “ intelligent”

Trouver la data :

On dit souvent que la data est le pétrole de ce siècle. Naturellement, un des prérequis d’un projet de machine learning est la data. Sur le plan pratique, vous allez capitaliser sur vos historiques de données (clients, fournisseurs, libellés…)

Planification et collecte de données:

Le processus repose sur le collection d’une première quantité de données que l’on peut utiliser pour déterminer les résultats dans une preuve de concept.

Déterminer une hypothèse de données:

Quel que soit votre modèle, vous devez déterminer certaines hypothèses pour entraîner le modèle. Les hypothèses de données couvrent généralement la relation entre les variables indépendantes et dépendantes, leur distribution, la multicolinéarité, l’autocorrélation et les valeurs aberrantes.

Prétraitement des données

Ce sont les étapes spécifiques pour transformer ou encoder les données afin qu’elles puissent être facilement analysées par la machine.

Interprétation des données avec les résultats du modèle

Il s’agit ici de compredre le process de la prise de décision. Les deux principales façons d’interpréter les modèles ML sont les méthodes spécifiques au modèle/indépendantes du modèle et les méthodes de portée locale/globale.

Nous vous recommondons de découvrir SageMaker

Qu’est-ce que ML Ops ?

L’apprentissage automatique et l’intelligence artificielle peuvent être difficiles à mettre en production. La science des données est souvent compliquée par des silos, des formats conflictuels, des problèmes de confidentialité, des exigences de sécurité et un manque de ressources. ML Ops peut aider à rationaliser le processus de développement, de test et de publication des workflows de science des données, apportant vitesse et agilité aux projets d’IA et de ML difficiles.

Grâce à l’utilisation de l’automatisation, les opérations d’apprentissage automatique permettent aux data scientists d’automatiser les tests des artefacts ML et d’appliquer les principes agiles aux projets ML de manière disciplinée, contribuant ainsi à des modèles de meilleure qualité.

Les opérations d’apprentissage automatique facilitent la conception et le déploiement d’un modèle d’apprentissage automatique en production.

Qu’est ce qu’un contrat de données ?

Un contrat de données est un accord entre les différents composants d’une architecture ML concernant la structure, le format et la sémantique des données qui seront utilisées en entrée ou en sortie. Il spécifie les types de données attendus, les plages de données et les métriques de qualité des données, ainsi que le pipeline de traitement des données à utiliser. En ayant un contrat de données clair et standardisé, il est possible de s’assurer que les différents composants d’une architecture ML peuvent fonctionner ensemble efficacement et que les données sont cohérentes et fiables.

Composants de l’architecture machine learning:

Une architecture ML se compose de plusieurs composants qui fonctionnent ensemble pour créer, former et déployer des modèles machine learning. Certains des composants clés incluent :

1. Ingestion de données : ce composant est responsable de la collecte, du prétraitement et du nettoyage des données pour les préparer à une utilisation dans le modèle machine learning. Cela implique l’extraction, la transformation et le chargement des données.

2. Stockage de données : ce composant stocke les données traitées dans un format accessible par d’autres composants de l’architecture ML. Cela peut impliquer différents types de stockage, tels que des bases de données relationnelles, des bases de données NoSQL ou un stockage d’objets.

3. Ingénierie des caractéristiques : ce composant est responsable de l’extraction des caractéristiques pertinentes des données brutes qui peuvent être utilisées comme entrées du modèle machine learning. Cela peut impliquer des techniques telles que la sélection des fonctionnalités, la mise à l’échelle des fonctionnalités et la transformation des fonctionnalités.

4. Construction du modèle machine learning: ce composant est responsable de la sélection, de la construction et du réglage du modèle ML qui sera utilisé pour effectuer des prédictions ou des classifications sur les données. Cela peut impliquer des techniques telles que l’apprentissage supervisé, l’apprentissage non supervisé ou l’apprentissage par renforcement.

5. Évaluation du modèle ML : ce composant est chargé d’évaluer les performances du modèle ML et d’identifier les domaines à améliorer. Cela implique de mesurer diverses mesures de performance, telles que l’exactitude, la précision, le rappel et le score F1.

6. Déploiement du modèle : ce composant est responsable du déploiement du modèle ML formé dans un environnement de production afin qu’il puisse être utilisé pour faire des prédictions sur de nouvelles données. Cela peut impliquer des techniques telles que la conteneurisation, les microservices ou l’informatique sans serveur.

Dans l’ensemble, une architecture ML bien conçue doit avoir des composants clairs et bien définis qui fonctionnent ensemble pour produire des prédictions précises et fiables sur les nouvelles données. Il doit également être évolutif, flexible et facile à entretenir et à mettre à jour au fil du temps.