Le surapprentissage fait référence à une super adaptation durant un process d’apprentissage inductif dans le cadre de projets d’apprentissage automatique ou d’intelligence artificielle.
Il peut arriver que l’algorithme suive excessivement les données entrées au moment de l’« entraînement » de la machine, et que cela s’avère inefficace lors d’un test avec des données génériques ; la modélisation va quand même permettre des prévisions plausibles durant la phase de mise en œuvre, mais elles s’avèreront moins précises pour des données « réelles », au dépens du bon fonctionnement du système et de la fiabilité des prévisions générées sur la base des nouvelles données.
Comment le surapprentissage survient-il ?
Le surapprentissage se produit lorsque le modèle d’apprentissage automatique s’ajuste tellement bien aux données d’apprentissage qu’il n’est plus possible de généraliser dans un contexte de haute variabilité des données comme dans une application qui ne serait plus expérimentale.
Cela se produit par exemple lorsque le nombre d’attributs à prendre en compte est considéré comme trop grand, vu que le risque de trouver une entrée non pertinente qui va polluer les données et aussi de créer une arborescence de décision compromise augmentent en même temps.
Comment le détecter ?
Habituellement, les données d’entraînement (ou une partie d’entre elles) sont utilisées pour analyser le comportement du modèle, et le tester en lui proposant différentes valeurs et entrées ; si un taux d’erreurs important est trouvé, il est fort probable qu’un surapprentissage se produise.
Voici un exemple concret : imaginons un modèle d’apprentissage automatique pour la gestion thermique.
Le modèle doit identifier les variations de température et l’humidité. Si de nombreux changements de température se produisent dans un scénario courant, comme la nuit, le modèle peut ne plus corréler les données de température et d’humidité, mais prendre en compte l’alternance jour / nuit pour classifier les données. Dans ce cas, il y aura une distorsion dans l’arborescence de décision, qui deviendra inutilisable suite à une erreur de classification des données.
Quelles sont les causes les plus fréquentes, et comment les éviter ?
Les causes les plus courantes de surapprentissage sont :
- Un faible volume de données d’entraînement. Nous devons nous assurer que le jeu de données d’entraînement contienne un échantillonnage suffisant pour être représentatif de toutes les variables et entrées possibles (dans notre exemple, couvrir autant d’évènements que possible)
- Une quantité importante d’informations non pertinentes présentes dans le jeu de données d’entraînement. Les paramètres non pertinents doivent être sélectionnés et retirés (dans notre exemple : la journée)
- Un entraînement orienté seulement sur un échantillonnage de données. Le modèle se focalise trop sur ce jeu particulier et ne réussit donc pas à s’adapter aux différentes données (dans notre exemple : trouver le bon « tempo », comme un scénario annuel qui comprendrait toutes les saisons).
- Un modèle trop complexe. Dans ce cas, le modèle lui-même interprète les données d’entraînement comme du « bruit » (dans notre exemple : éliminer les autres données non pertinentes, comme les interruptions de service des machines pour la maintenance)
Il y a alors un autre risque : sans suffisamment de données pertinentes nous courons le risque opposé : le sous apprentissage.
En conclusion, c’est uniquement en entraînant correctement le modèle qu’il est possible de réduire le pourcentage d’erreurs, mais il faut faire attention à trouver le bon compromis entre les deux extrêmes, le sous-apprentissage et le sur-apprentissage.
L’apprentissage automatique dans les armoires électriques
Dans le domaine de la gestion thermique des armoires électriques, le Sensis de Fandis est le premier appareil IIoT capable de mesurer les paramètres climatiques dans l’armoire et de réguler en conséquence les appareils de chauffage et de refroidissement qui y sont installés, afin de maintenir un niveau de température optimal, de gérer des informations et de reconnaitre des évènements anormaux, grâce à l’ analyse prédictive .
Pour en savoir plus sur le Sensis ainsi que sur tous nos produits pour les armoires électriques, visitez notre site fandis.com, parcourez notre blog ou adressez-nous un mail à support@fandis.com. Notre équipe vous répondra au plus vite.
Laisser un commentaire