G

Limite de généralisation

GB

Une borne de généralisation est une limite théorique sur la performance d'un modèle sur des données non vues.

A generalization bound is a concept in apprentissage automatique and statistics that provides a theoretical framework for understanding how well a model can be expected to perform on new, unseen data based on its performance on données d'entraînement. In simpler terms, it estimates the difference between a model’s accuracy sur le jeu de données d'entraînement et sa précision sur un jeu de données de test indépendant.

La généralisation est cruciale car l’objectif ultime de l’entraînement d’un modèle d’apprentissage automatique n’est pas seulement de bien performer sur les données qu’il a déjà vues, mais aussi de faire des prédictions précises sur de nouvelles instances. Une limite de généralisation quantifie cette capacité en fournissant une limite supérieure à l’erreur attendue du modèle.

Mathematically, generalization bounds are often expressed in terms of the model’s complexity and the amount of training data available. One common form of a generalization bound is derived from the concept of dimension VC (Vapnik-Chervonenkis), which measures the capacity of a statistical classification algorithm. The generalization bound indicates that as the size of the training dataset increases, the expected error on unseen data decreases, provided the model’s complexity does not increase excessively.

In practice, these bounds help researchers and practitioners understand the trade-offs involved when selecting a model and its parameters. They provide insights into how many training samples are necessary to achieve a desired level of accuracy on unseen data, guiding effective la formation de modèles et stratégies d'évaluation.

oEmbed (JSON) + /